摘要
从大模型的提示词到智能体的 Skills,看着进化了,但又没有完全进化。 在智能体应用中,越来越多的程序员开始花大量时间写 CLAUDE.md、Codex 的 skill 文件、各种 Agent 的 system prompt。 手写这些技能文档,本质上是一种试错的手工活。写一版,跑几个任务看看效果,觉得哪里不对再改,改完再跑。这个过程和之前手调 prompt 没有本质区别,只是对象从一句话变成了一整份文档。 这件事其实挺荒诞,我们本来是想让更智能的 AI 帮我们干活的,结果现在反过来,我们在花大量精力教 AI 怎么干活。 这个问题似乎迎来了终点,微软在本周开源了 SkillOpt,一个把 Agent 技能文档当作「可训练参数」的文本空间优化框架,让技能文档自我进化。 官网链接:https://microsoft.github.io/SkillOpt/#idea Github 链接:https://github.com/microsoft/SkillOpt 论文链接:https://arxiv.org/abs/2605.23904 核心思路很简单,不训练模型权重,只训练那份指导 Agent 行为的自然语言文档。在 7 个目标模型、6 个基准测试、3 种执行环境(直接对话、Codex、Claude Code)的全部 52 个评测组合中,SkillOpt 训练出的技能文档全部达到最优或并列最优。 Skills 也能优化训练 SkillOpt 的核心洞察可以用一句话概括:Agent 的技能文档就是它的「外部权重」,既然内部权重可以用梯度下降来优化,外部权重也应该有一套系统化的训练方法。 SkillOpt 流程。冻结的目标模型使用当前技能执行;优化器模型提出有界的修改;保留的验证决定候选是否成为新的当前技能。 训练循环:前向传播、反向传播、参数更新 传统深度学习的训练循环是:前向传播算 loss,反向传播算梯度,用梯度更新权重。SkillOpt 把同样的逻辑搬到了文本空间: Rollout(前向传播):冻结的目标模型拿着当前版本的技能文档去执行一批任务,记录完整的执行轨迹,包括消息、工具调用、验证反馈、最终得分。这一步产出的是「证据」,相当于神经网络的前向传播结果。
相关事件查看全部 (1)
相关人物
暂无数据