AI的审美:我用 8 个大模型给 100 张旅行照片打分 文章

少数派 Matrix2026-04-29BLOGzh作者: 爱拍照的青蛙

详细信息

来源站点
少数派 Matrix
作者
爱拍照的青蛙
文章类型
BLOG
语言
zh
发布日期
2026-04-29

摘要

一次关于 AI 审美能力的横向测评:从最贵的 GPT-5.5 到最便宜的 Qwen,谁能戳中我的审美?端午节去了一趟澳大利亚,回来带了将近 2000 张照片。每次旅行后最痛苦的事不是整理行李,而是面对这堆照片不知道从哪里下手。哪些值得精修?哪些直接删?每次我都要花好几个小时反复翻看,最后还是靠本能做决定。作为一个每天为AI焦虑的人,不出意外地:能不能让 AI 帮我先过一遍?但问题来了——用哪个模型?各家 AI 的「视觉能力」表现如何?有没有可能都是垃圾?于是我设计了一个小实验:从那 2000 张照片里随机挑 100 张不带人像的照片(老婆不想露脸),同时丢给 8 个主流多模态大模型,让它们各自给每张照片打分(0-10 分),然后对比各模型的评分结果、Top 10 偏好、花费和速度。实验设计模型阵容模型厂商每百万 Token 成本(输入/输出)Claude Sonnet 4.6Anthropic$3 / $15GPT-5.5OpenAI$5 / $30Gemini 3.1 ProGoogle$2 / $12Grok 4.20xAI$2 / $6Qwen3.6 35BAlibaba$0.16 / $0.97Kimi K2.6Moonshot$0.74 / $4.66MiMo V2.5Xiaomi$0.40 / $2.00GLM-5V TurboZhipu$1.20 / $4.00Prompt 设计为了让打分有参考依据,我给每个模型相同的评分标准:你是一位专业摄影师,请给这张照片打分(0.0 到 10.0)。 评分标准: - 构图:主体是否突出、画面是否平衡 - 曝光:亮度、对比度、高光/阴影细节 - 清晰度:对焦是否准确、是否有运动模糊 - 内容:画面是否有趣、有情感或视觉冲击力 - 整体:是否值得保留 校准参考: - 9-10:极少。决定性瞬间、完美技术+强烈情感 - 7-8:明显亮点,但缺少惊艳 - 5-6:普通,技术无大问题但平淡 - 3-4:有明显缺陷(模糊/曝光偏差/构图随意) - 1-2:废片每张照片先缩小到 600×400(节省 Token),以 base64 格式发送,要求模型严格按格式输出分数和一句理由,不开启记忆每张图都是独立的评分。结果我的自选十图这是实验前我自己先选出的 10 张最喜欢的照片,作为参照基准,看看 AI 的眼光和我有多少重叠

摘要可能不完整,可查看原文