Speech LLM 的下一个突破口：你的语音大模型可以是个「带韵律的文本模型」文章

36kr 资讯2026-05-27NEWSzh作者: 机器之心

摘要

语音大模型的最大瓶颈：“模型降智” 相信大家都有过这样的体验：同一个系列的模型，使用文本交互的时候，模型就像开启了 “最强大脑”，数学代码等各种复杂推理任务样样精通，可是一旦将其改造成语音对话模型之后，性能就猛烈下降，严重 “降智”，经常会犯很多基本的逻辑错误。这个让整个行业十分头疼的现象，学术界将其定义为 “模态代沟”（Modality Gap）。为了降低 Modality Gap，整个 Speech AI 行业在过去几年里进行了两波主要的改进。第一波改进，大家发现应该 “换模态”。 既然传统端到端的语音大模型严重降智，那就通过文本模态进行缓冲，也就是让模型先 “想” 出文本，再将文本转换成对应的语音输出。这便催生了目前语音大模型的主流架构：Thinker-Talker。大家发现让 Thinker 输出文本的模式可以一定程度上拉高模型的性能上限。第二波改进，大家开始在模型的输出端对齐（Output Alignment）上面下功夫。即使是用 Thinker 做文本输出，还是有相当一部分的 Modality Gap。于是大家希望大模型在面对文本输入和语音输入的时候能 “一模一样” 的输出，从而拉高智商。于是行业中出现了各种各样专门缓解 Modality Gap 的文章。他们大多数通过知识蒸馏（Knowledge Distillation），表示对齐（Representation Alignment）等方法来拉近两个模式下输出的距离。然而，我们发现，在这两波改进之后，即使语音预训练数据被拉到了百万小时甚至千万小时的级别，降智问题依旧存在。强如 Qwen2.5-Omni，在复杂的数学推理任务上依然会面临超过 15% 的性能下降。这让我们思考：这些方法为什么无法从根本上解决问题？我们是不是要换一个角度来思考降智的问题？🤔 Figure 1 以往的架构死磕输出端，而 TextPro-SLM 选择从输入端破局最近，一篇来自香港中文大学的最新力作，一下子戳破了重点：“为什么 Speech LLM 还是做的不够好？因为真正的瓶颈，已经不在输出端，而在输入端！”…

摘要可能不完整，可查看原文

Speech LLM 的下一个突破口：你的语音大模型可以是个「带韵律的文本模型」文章

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (8)

相关技术查看全部 (9)

Speech LLM 的下一个突破口：你的语音大模型可以是个「带韵律的文本模型」 文章

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (8)

相关技术查看全部 (9)

Speech LLM 的下一个突破口：你的语音大模型可以是个「带韵律的文本模型」文章