摘要
深度研究智能体系统"(如 OpenAI" 和 Gemini Deep Research Agent")是一类 AI 智能体,旨在利用动态推理和多步骤信息检索技术,在互联网上针对复杂任务进行多步骤研究,并生成达到研究分析师水平的全面的结构化分析报告。在 2026 年 Arc of AI 大会"上,来自 Thoughtworks 团队的 Sarang Kulkarni 发表"了演讲,探讨如何设计和部署用于深度推理与合成的多智能体研究系统,以及在实际的医疗保健和制药研发项目中开发深度研究智能体时汲取的经验教训。他还探讨了团队如何利用智能体循环"和任务工程等技术,充分发挥该解决方案的潜力。在医疗保健和临床试验"等关键行业中,研究人员需要的不仅仅是能够执行简单问答任务的传统 AI 模型。他们需要的是能够在处理内部数据和互联网数据时进行发现、关联和推理,同时确保可靠性、透明度和合规性的系统。在演讲开时时,Kulkarni 指出,将一种新药推向市场通常需要花费 26 亿美元。此外,大约一半的研究是在缺乏前期证据的情况下进行的,因为虽然存在相关的知识,但获取这些知识和信息却存在障碍。在整个药物发现与开发流程中,如何在恰当的时机获取正确的数据是一项很大的挑战。为了利用 AI 技术研发新药,两年前,他们团队构建了一个基于检索增强生成(RAG")技术的聊天机器人,用于检索非结构化数据。对于研究中的简单查询,RAG 解决方案运行良好,但面对复杂问题时,他们不得不对其进行升级,使其成为一个智能体 RAG [] 应用程序。而针对深度研究用例,该团队开发了一个名为 Agentic RAG++ 的解决方案。Kulkarni 详细介绍了该深度研究系统的架构,包括:澄清循环、研究循环(用于执行思考与规划、执行、反思和规划调整等任务)以及写作循环(专注于写作和反思任务)。研究智能体的初始版本基于两个工具:RAG 工具和 text2sql 工具。RAG 工具的设计基于加权混合搜索"、20 个上下文块、一个重新排序器以及 7 个精炼后的上下文块。text2sql 工具负责将 SQL 查询错误反馈给大型语言模型(LLM),以便优化模型,提高查询执行的准确性。他提到,诸如令牌成本过高、性能不佳和延迟过长等因素,都可能导致 AI 智能体的检索效果不佳。上下文焦虑"是团队需要警惕的另一个问题。