我们用150个任务测试了30个skill，跑出7个反直觉结论事件

Name: 我们用150个任务测试了30个skill，跑出7个反直觉结论
Start: 2026-05-22

SHUTDOWN2026-05-22影响: LOW

我们用150个任务测试了30个skill，跑出7个反直觉结论 2026上半年，skill数量井喷。很多公司在把所有的内部工作流程skill化，给大模型加上一个skill，模型就被期待能“立刻变专业”。但当Skill数量从十几个膨胀到几百个，一个朴素的问题被反复提起：装上Skill，是不是真的就一定更强大？带着这个疑问，我们在TRACE严选评测中做了系统化的实验。我们没有采用“看下载榜”或“跑一次给个分”的轻量做法，而是在统一的prompt、统一的裁判和统一的评测口径下，让每个Skill与“裸模型”（no-skill）跑完150 组任务级对比、30个Skill的成本与稳定性、107 条规范性问题、以及一轮跨模型推理强度的可迁移性测试。关于TRACE严选评测的详细介绍，可以查看《3张图、5000字，认真聊聊什么才是好的skill》。在持续评测Skill的过程中，我们整理出7个最值得关注的发现，并将相关实验数据、评测过程和机制解释集中公开。其中很多结论，出乎我们的意料。 01 有Skill不一定效果更好我们装Skill的最初想法，是让大模型

人工智能

关系图谱

我们用150个任务测试了30个skill，跑出7个反直觉结论事件

相关公司查看全部 (3)

相关人物

相关产品查看全部 (9)

相关技术查看全部 (5)

相关报道查看全部 (1)

我们用150个任务测试了30个skill，跑出7个反直觉结论 事件

相关公司查看全部 (3)

相关人物

相关产品查看全部 (9)

相关技术查看全部 (5)

相关报道查看全部 (1)

我们用150个任务测试了30个skill，跑出7个反直觉结论事件