ZeroSyl: Simple Zero-Resource Syllable Tokenization for Spoken Language Modeling 文章

ArXiv CS.CL2026-06-17NEWSen作者: Nicol Visser, Simon Malan, Danel Slabbert, Herman Kamper

详细信息

来源站点: ArXiv CS.CL
作者: Nicol Visser, Simon Malan, Danel Slabbert, Herman Kamper
文章类型: NEWS
语言: en
发布日期: 2026-06-17

摘要

arXiv:2602.15537v2 Announce Type: replace Abstract: Pure speech language models aim to learn language directly from raw audio without textual resources. A key challenge is that discrete tokens from self-supervised speech encoders result in excessively long sequences, motivating recent work on syllable-like units. However, methods like Sylber and SyllableLM rely on intricate multi-stage training pipelines. We propose ZeroSyl, a simple training-free method to extract syllable boundaries and embeddings directly from a frozen WavLM model. Using L2 norms of features in WavLM's intermediate layers, ZeroSyl achieves competitive syllable segmentation performance. The resulting segments are mean-pooled, discretized using K-means, and used to train a language model. ZeroSyl outperforms prior syllabic tokenizers across lexical, syntactic, and narrative benchmarks.

ZeroSyl: Simple Zero-Resource Syllable Tokenization for Spoken Language Modeling 文章

详细信息

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (8)

相关技术查看全部 (1)