一周3.3k star，微软开启Skills自我进化，像训练神经网络一样训练技能文章

36kr 资讯2026-06-01NEWSzh作者: 机器之心

摘要

从大模型的提示词到智能体的 Skills，看着进化了，但又没有完全进化。在智能体应用中，越来越多的程序员开始花大量时间写 CLAUDE.md、Codex 的 skill 文件、各种 Agent 的 system prompt。手写这些技能文档，本质上是一种试错的手工活。写一版，跑几个任务看看效果，觉得哪里不对再改，改完再跑。这个过程和之前手调 prompt 没有本质区别，只是对象从一句话变成了一整份文档。这件事其实挺荒诞，我们本来是想让更智能的 AI 帮我们干活的，结果现在反过来，我们在花大量精力教 AI 怎么干活。这个问题似乎迎来了终点，微软在本周开源了 SkillOpt，一个把 Agent 技能文档当作「可训练参数」的文本空间优化框架，让技能文档自我进化。官网链接：https://microsoft.github.io/SkillOpt/#idea Github 链接：https://github.com/microsoft/SkillOpt 论文链接：https://arxiv.org/abs/2605.23904 核心思路很简单，不训练模型权重，只训练那份指导 Agent 行为的自然语言文档。在 7 个目标模型、6 个基准测试、3 种执行环境（直接对话、Codex、Claude Code）的全部 52 个评测组合中，SkillOpt 训练出的技能文档全部达到最优或并列最优。 Skills 也能优化训练 SkillOpt 的核心洞察可以用一句话概括：Agent 的技能文档就是它的「外部权重」，既然内部权重可以用梯度下降来优化，外部权重也应该有一套系统化的训练方法。 SkillOpt 流程。冻结的目标模型使用当前技能执行；优化器模型提出有界的修改；保留的验证决定候选是否成为新的当前技能。训练循环：前向传播、反向传播、参数更新传统深度学习的训练循环是：前向传播算 loss，反向传播算梯度，用梯度更新权重。SkillOpt 把同样的逻辑搬到了文本空间： Rollout（前向传播）：冻结的目标模型拿着当前版本的技能文档去执行一批任务，记录完整的执行轨迹，包括消息、工具调用、验证反馈、最终得分。这一步产出的是「证据」，相当于神经网络的前向传播结果。

一周3.3k star，微软开启Skills自我进化，像训练神经网络一样训练技能文章

摘要

相关事件查看全部 (1)

相关公司查看全部 (1)

相关人物

相关产品查看全部 (3)

相关技术查看全部 (1)

一周3.3k star，微软开启Skills自我进化，像训练神经网络一样训练技能 文章

摘要

相关事件查看全部 (1)

相关公司查看全部 (1)

相关人物

相关产品查看全部 (3)

相关技术查看全部 (1)

一周3.3k star，微软开启Skills自我进化，像训练神经网络一样训练技能文章