OpenAI 前 CTO,拿出了一个「最人性」的 AI 文章

极客公园 AI2026-05-12NEWSzh作者: 36氪的朋友们

摘要

Mira Murati 用一年半时间证明了「人机协作」不是一句口号。作者|桦林舞王 编辑| 靖宇   在「蛰伏」了 18 个月后,OpenAI 前 CTO Mira Murati 的新团队,Thinking Machines,终于交出了自己的答卷。 5 月 11 日,Thinking Machines Lab 发布了一段研究预览视频,展示了他们所谓的「交互模型」(Interaction Model)。 这不是又一个大语言模型的发布会,也不是又一轮跑分刷榜。这家公司做的事情,用一句话概括就是—— 让 AI 不再像发微信一样一条一条回复你,而是像面对面聊天一样,随时听、随时看、随时插嘴。 如果你看过他们的 Demo 视频,你会发现一件有意思的事:用户正在说话的时候,AI 也在说话;用户对着摄像头做俯卧撑,AI 在一旁数数;用户写代码写错了,AI 主动开口提醒——没人让它说话,它自己看到了。 这种体验,当前市场上没有任何一个商业 AI 产品能做到。   01 「回合制」的枷锁   要理解 Thinking Machines 做的事情为什么重要,得先理解当前所有 AI 对话系统的底层逻辑—— 回合制。 你说一句,AI 等你说完,然后回一句。在你说话的时候,AI 是「瞎」的、「聋」的,什么都感知不到。在 AI 回复的时候,它的感知也冻结了,不接收任何新信息。这就像两个人隔着一堵墙用对讲机沟通,你按下说话键的时候对方只能等着。 Thinking Machines 介绍 Demo|图片来源:YouTube 这套逻辑在打字聊天的场景下勉强够用,但一旦涉及语音、视频、实时协作,问题就暴露了。 现有的 AI 模型把「自主工作」当作最重要的能力来优化,结果是人越来越难留在循环中。 Anthropic 自己的模型卡里都承认过,用户如果用同步、实时的方式操作他们的模型,体验反而不好——模型太慢,用户感知不到价值。 Thinking Machines 的核心主张很简单: 交互能力应该和智能一起扩展,而不是被当成事后补丁。   02 200 毫秒的「微回合」   Thinking Machines 的技术路线有一个核心设计: 时间对齐的微回合(Time-Aligned Micro-Turns)。 传统模型的输入和输出是一整段一整段处理

摘要可能不完整,可查看原文