我们用150个任务测试了30个skill,跑出7个反直觉结论 事件
SHUTDOWN2026-05-22影响: LOW
我们用150个任务测试了30个skill,跑出7个反直觉结论 2026上半年,skill数量井喷。很多公司在把所有的内部工作流程skill化,给大模型加上一个skill,模型就被期待能“立刻变专业”。 但当Skill数量从十几个膨胀到几百个,一个朴素的问题被反复提起: 装上Skill,是不是真的就一定更强大? 带着这个疑问,我们在TRACE严选评测中做了系统化的实验。我们没有采用“看下载榜”或“跑一次给个分”的轻量做法,而是在统一的prompt、统一的裁判和统一的评测口径下,让每个Skill与“裸模型”(no-skill)跑完150 组任务级对比、30个Skill的成本与稳定性、107 条规范性问题、以及一轮跨模型推理强度的可迁移性测试。 关于TRACE严选评测的详细介绍,可以查看《3张图、5000字,认真聊聊什么才是好的skill》。 在持续评测Skill的过程中,我们整理出7个最值得关注的发现,并将相关实验数据、评测过程和机制解释集中公开。其中很多结论,出乎我们的意料。 01 有Skill不一定效果更好 我们装Skill的最初想法,是让大模型