摘要
语音大模型的最大瓶颈:“模型降智” 相信大家都有过这样的体验:同一个系列的模型,使用文本交互的时候,模型就像开启了 “最强大脑”,数学代码等各种复杂推理任务样样精通,可是一旦将其改造成语音对话模型之后,性能就猛烈下降,严重 “降智”,经常会犯很多基本的逻辑错误。 这个让整个行业十分头疼的现象,学术界将其定义为 “模态代沟”(Modality Gap)。 为了降低 Modality Gap,整个 Speech AI 行业在过去几年里进行了两波主要的改进。 第一波改进,大家发现应该 “换模态”。 既然传统端到端的语音大模型严重降智,那就通过文本模态进行缓冲,也就是让模型先 “想” 出文本,再将文本转换成对应的语音输出。这便催生了目前语音大模型的主流架构:Thinker-Talker。大家发现让 Thinker 输出文本的模式可以一定程度上拉高模型的性能上限。 第二波改进,大家开始在模型的输出端对齐(Output Alignment)上面下功夫。即使是用 Thinker 做文本输出,还是有相当一部分的 Modality Gap。于是大家希望大模型在面对文本输入和语音输入的时候能 “一模一样” 的输出,从而拉高智商。于是行业中出现了各种各样专门缓解 Modality Gap 的文章。他们大多数通过知识蒸馏(Knowledge Distillation),表示对齐(Representation Alignment)等方法来拉近两个模式下输出的距离。 然而,我们发现,在这两波改进之后,即使语音预训练数据被拉到了百万小时甚至千万小时的级别,降智问题依旧存在。强如 Qwen2.5-Omni,在复杂的数学推理任务上依然会面临超过 15% 的性能下降。 这让我们思考:这些方法为什么无法从根本上解决问题?我们是不是要换一个角度来思考降智的问题?🤔 Figure 1 以往的架构死磕输出端,而 TextPro-SLM 选择从输入端破局 最近,一篇来自香港中文大学的最新力作,一下子戳破了重点:“为什么 Speech LLM 还是做的不够好?因为真正的瓶颈,已经不在输出端,而在输入端!”…
摘要可能不完整,可查看原文
相关事件
暂无数据
相关公司
暂无数据
相关人物
暂无数据