装了啥:编辑部用什么转写音视频内容? 文章

少数派2026-05-15BLOGzh作者: 少数派编辑部

摘要

按:从播客访谈到深度长视频,越来越多的内容创作者把表达重心放到了音视频里;「先转录、再阅读」也因此成了不少重度信息消费者的日常工作流。。本期「装了啥」,我们请编辑部几位同事分享各自正在使用的转录方案,希望其中至少有一种思路能为你所用。 MacWhisper 的平价替代:TranscribeX @广陵止息:虽然我很喜欢文字传递的高密度信息,但越来越多的内容创作者已经转向播客和视频;至于多人访谈类节目,音频传达出的现场氛围感也比文字更生动。所以我这些年消费音视频节目的时间也逐渐拉长,但有价值的节目「三心二意」地听一遍远远不够,反复听又没有足够的时间和精力。所以,现在遇到有价值的节目,我都会转录成文本,方便后续检索。 从 Time Machine 里翻了翻,找到了当时的文件夹记录 以前我采用的是 whisper.cpp 配合 OpenAI Whisper Large V3 模型来转录文本,但这个方案有两个问题。一是音视频下载的渠道很多,挨个手动下载很麻烦;二是转录时间偏长的中文视频时,有不小的概率会在转录过半之后出现重复输出、卡字,导致转录失败。 但我实在不想翻 log 和模型仓库找相关讨论了,所以也开始寻找替代方案。首先想到的是 MacWhisper,看了眼当时价格已经涨到完全不考虑的地步。好在后来找到了整体体验和 MacWhisper 很类似的 TranscribeX,除了收录在 Setapp 里,对我没有额外成本外,即使单买也只要 MacWhisper 一半价钱。 和 MacWhisper 类似,TranscribeX 支持本地文件导入转录、麦克风录制、录制特定软件、实时转录、视频网站下载转录和批量转录。其中「下载视频网站」功能主要依赖 yt-dlp 实现,所以基本不用担心国内服务的下载问题。 转录模型方面,TranscribeX 也支持 WhisperKit、Parakeet、千问和 Mistral 的转写模型,必要时还可以调用 ElevenLabs 的在线 API。不过我本地基本只用 Whisper Large V3,别的模型也没用过,所以暂时不评价转录效果。相比 MacWhisper,TranscribeX 支持 Apple Silicon 中的 NPU 加速,这也是我之前选 whisper.cpp 的原因。NPU 虽然不会让转录速度快很多,但至少负载不会

摘要可能不完整,可查看原文