从零手搓 AI Agent,我学到了什么? 文章

少数派2026-05-28BLOGzh作者: Mirtle

摘要

我要自己从头搞一个 AI Agent。周五下班路上,这个信念充斥着一个文科生的心。当天下午小组周会,研发人员对我脱口而出「你懂个屁的 AI」,紧接着就是上下文、MCP、Skills 这类于我而言「可远观不可亵玩」的词汇。我沉默不言,无法反驳,因为我对 AI 的全部理解确实只停留在每月的 meme 梗图、流行词,以及 OpenAI、Anthropic 的花边野史。任何追问都会让我哑口无言。但事情将迎来转机,我感受到不同于下月减肥、少吃油盐和戒掉抖音的强大信念:我要用两天时间梳理完 AI 发展脉络,理解 Agent 能力边界。我也知道软件工程更多是门实践学科,要学习 AI,没有什么比自己「重造一个轮子」带来的理解更加深刻。所以我也拟定了清晰的目标,我的 AI Agent 至少需要做三件事:能正常聊天;能帮我创建、整理待办和笔记;能帮我拿到最新的少数派的派早报、本周看什么等栏目摘要。此外,它也不能直接使用任何 AI 框架,代码从零开始;核心脉络、迭代则由我自己定,不能偷懒给 Codex 一句「我要 AI Agent」。让 AI 开口说话,并治好它的「失忆症」周六一早,我尝试迈出第一步:搞定聊天。为此我得看一大堆比《三星 OneUI 使用说明书》还复杂的接入文档,对于非程序员群体——例如我——大概和看天书差不多。出人意料的是,所有 AI 厂商的文档的第一页都只有一行加粗的十个字:先指定模型,再写上问题:DeepSeek-v4-flash: 你好DeepSeek 不一会儿就会发来贺电。大概半小时,我用一个既有的软件做界面框架,做好了雏形:一句简单咒语,就能驱动一个海量数据训练出来的黑盒。美好的开局让我信心爆棚。我紧接着打算和 AI 联络感情:「从现在开始,你叫我阿乐,我叫你大 D」。我想试试这个好搭档的默契,它却掉链子了:没错,就像得了失忆症,似乎每一轮对话对于 AI 来讲都是全新的开始。这可不行,而且,ChatGPT 们可不是这样。以「多轮对话」为关键词搜索后,我了解到原来在模型层面上,AI 没有「记忆」一说1:模型只处理本轮对话中,你的输入和它的输出。这也就是模型的 Context(上下文窗口)。解决办法很原始:每一次新的对话,都把上几轮对话的内容复述一遍:DeepSeek-v4-flash: 上一轮的问题;上一轮的回答…

摘要可能不完整,可查看原文