摘要
微软于6月2日发布了MAI-Code-1-Flash,这是一款由微软超级智能团队从头构建的编程模型,主打高效与实用。与追求参数规模的路线不同,MAI-Code-1-Flash的核心设计哲学是"为开发者而生,而非为榜单而生"——模型直接在GitHub Copilot生产环境使用的测试框架中训练,使其更适配真实工作流。 MAI-Code-1-Flash的核心能力包括:在真实开发者环境中执行agentic编程、具备自适应思考长度(简单请求快速响应,复杂任务投入更多推理资源)、以及在单轮和多轮场景下都保持强指令遵循能力。 性能数据是这次发布的亮点。在SWE-Bench Pro测试中,MAI-Code-1-Flash达到51.2%的通过率,比Claude Haiku 4.5高出16个百分点。更值得关注的是效率指标:该模型解决问题所需的token数量比Claude Haiku减少60%,这意味着在相同成本下,MAI-Code-1-Flash能够处理更复杂的问题。在一道包含186道对抗性问题的基准测试中,MAI-Code-1-Flash达到了85.8%的校正准确率。 在与Claude Haiku 4.5的横向对比中,MAI-Code-1-Flash在SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Multilingual和Terminal Bench 2四项测试中均取得更高的通过率,同时在数学、科学、指令遵循和agentic编程任务上也表现更优。 MAI-Code-1-Flash现已向Visual Studio Code中的GitHub Copilot个人用户推送,无需额外设置即可使用。对于企业版用户,微软尚未公布具体上线时间。 编程AI赛道竞争态势方面,当前的Coding Agent市场已经形成多极竞争格局。OpenAI的Codex、Anthropic的Claude Haiku、Google的Gemini Code,以及GitHub Copilot的核心引擎都在争夺同一批开发者用户。与其他厂商追求参数规模、再通过量化压缩的路线不同,微软选择了一条更务实的路径:不做最大的模型,而是做效率最高的模型。