本地优先 AI 推理:高性价比文档处理云架构模式 文章

InfoQ 中文2026-05-14BLOGzh作者: 作者:Obinna Iheanachor

摘要

一种三层混合架构可将 Azure OpenAI 的成本降低 75%,并在 4700 份文档的生产级工作负载中把处理耗时缩短 55%。2026 年云文档处理的默认架构是将每份文档都推送给托管 AI 端点,然后接收返回的结构化数据。这种方式虽然可行,但效率低下。在工程图纸、发票、监管文件这类具有固定结构化版式的文档语料中,有 60% 至 70% 的输入内容都可以通过确定性本地算法在毫秒级完成处理,且无需产生任何 API 调用成本。 本文介绍了一种我称之为本地优先 AI 推理(Local-First AI Inference)的可复用模式:这是一种三层架构,由确定性本地处理器处理大部分输入内容,云端 AI 服务仅用于应对边缘情况,人工审核层则用来限制错误率。云 AI 系统中最重要的架构选择不在于选用哪款模型,而在于何时调用模型。本地优先模式打破了固有的默认做法,提出了一个核心问题:“这份文档是否真的需要调用云端模型?”而不是不加区分地将所有内容都发送给端点。 我在 Azure 上部署了这种模式,用于从 4700 多份工程图纸 PDF 文件中提取元数据。采用纯云端方案需要花费 47 美元的 Azure OpenAI API 调用费用,耗时 100 分钟,且每份文档都会存在幻觉风险。采用混合架构方案后,API 成本降至 10 至 15 美元,处理时长缩短至 45 分钟,同时人工审核层有效控制了错误率。 手动替代方案需要工程师逐份打开 PDF、查找标题栏,并把修订信息录入电子表格,每份文档大约耗时 2 分钟,4700 份文件合计约 160 个工时。按照工程人力费率计算,每次迁移流程的成本超过 8000 英镑。这个系统已在四个站点投入使用。这种模式可推广至所有输入结构可预测的云 AI 工作负载场景:发票处理、合同信息提取、医疗记录解析等。 三层架构层级数量由失败模式的数量决定。双层系统(本地加云端)要么默认采信存在幻觉的云端结果,要么直接拒绝这类结果并丢失覆盖率。四层系统会增加复杂度,但可靠性不会获得相应的提升。三层架构是覆盖全部三类失败场景所需的最少层级:可通过规则直接处理的文档(第1层)、需要通过视觉解析的文档(第2层),以及以上两种方式都不足以可靠处理、必须依靠人工介入审核的文档(第3层)。 第 1 层:本地确定性提取每份文

摘要可能不完整,可查看原文

相关事件

暂无数据

相关公司

暂无数据

相关人物

暂无数据