AI的审美：我用 8 个大模型给 100 张旅行照片打分文章

少数派 Matrix2026-04-29BLOGzh作者: 爱拍照的青蛙

详细信息

来源站点: 少数派 Matrix
作者: 爱拍照的青蛙
文章类型: BLOG
语言: zh
发布日期: 2026-04-29

摘要

一次关于 AI 审美能力的横向测评：从最贵的 GPT-5.5 到最便宜的 Qwen，谁能戳中我的审美？端午节去了一趟澳大利亚，回来带了将近 2000 张照片。每次旅行后最痛苦的事不是整理行李，而是面对这堆照片不知道从哪里下手。哪些值得精修？哪些直接删？每次我都要花好几个小时反复翻看，最后还是靠本能做决定。作为一个每天为AI焦虑的人，不出意外地：能不能让 AI 帮我先过一遍？但问题来了——用哪个模型？各家 AI 的「视觉能力」表现如何？有没有可能都是垃圾？于是我设计了一个小实验：从那 2000 张照片里随机挑 100 张不带人像的照片（老婆不想露脸），同时丢给 8 个主流多模态大模型，让它们各自给每张照片打分（0-10 分），然后对比各模型的评分结果、Top 10 偏好、花费和速度。实验设计模型阵容模型厂商每百万 Token 成本（输入/输出）Claude Sonnet 4.6Anthropic$3 / $15GPT-5.5OpenAI$5 / $30Gemini 3.1 ProGoogle$2 / $12Grok 4.20xAI$2 / $6Qwen3.6 35BAlibaba$0.16 / $0.97Kimi K2.6Moonshot$0.74 / $4.66MiMo V2.5Xiaomi$0.40 / $2.00GLM-5V TurboZhipu$1.20 / $4.00Prompt 设计为了让打分有参考依据，我给每个模型相同的评分标准：你是一位专业摄影师，请给这张照片打分（0.0 到 10.0）。评分标准： - 构图：主体是否突出、画面是否平衡 - 曝光：亮度、对比度、高光/阴影细节 - 清晰度：对焦是否准确、是否有运动模糊 - 内容：画面是否有趣、有情感或视觉冲击力 - 整体：是否值得保留校准参考： - 9-10：极少。决定性瞬间、完美技术+强烈情感 - 7-8：明显亮点，但缺少惊艳 - 5-6：普通，技术无大问题但平淡 - 3-4：有明显缺陷（模糊/曝光偏差/构图随意） - 1-2：废片每张照片先缩小到 600×400（节省 Token），以 base64 格式发送，要求模型严格按格式输出分数和一句理由，不开启记忆每张图都是独立的评分。结果我的自选十图这是实验前我自己先选出的 10 张最喜欢的照片，作为参照基准，看看 AI 的眼光和我有多少重叠

摘要可能不完整，可查看原文

AI的审美：我用 8 个大模型给 100 张旅行照片打分文章

详细信息

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (7)

相关技术查看全部 (3)

AI的审美：我用 8 个大模型给 100 张旅行照片打分 文章

详细信息

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (7)

相关技术查看全部 (3)

AI的审美：我用 8 个大模型给 100 张旅行照片打分文章