语言模型感知的语音分词
提出了一种跨模态的语音和语言模型,使用两种不同的离散标记器来处理语音和文本模态,取得了优异的成绩,尤其表现出色的是在 CoVoST-2 语音翻译任务上。
Sep, 2022
通过对语音令牌进行编码解码架构的统一建模和分层信息表征,提出了SpeechTokenizer,用于语音大型语言模型的训练,其在语音重构和零样本语音合成任务中表现出色,相较于传统的语义和声学令牌在建模效果上有显著优势。
Aug, 2023
通过引入一种新方法,结合大型语言模型(LLMs)来进行上下文化的语音识别模型,我们证明通过添加适配器的少量可训练参数,可以在保持相同的文本输入功能的同时,实现预训练LLM的上下文化语音识别能力并显著提高性能。
Sep, 2023
探索联合的语言建模方法,比较不同语音分词方法和语音-文本混合数据构建方法,通过自动指标评估联合语言模型的混合效果,在不同模态下对下游口语理解任务进行微调并测试其性能,结果表明通过混合我们提出的语音单元和文本的方法,联合语言模型在口语理解任务上超过了单独语音的基准模型,并显示出跨模态的零-shot传递能力。
Oct, 2023
在大规模预训练语言模型(LLMs)中,我们进行了一项全面研究,探究了分词器选择对下游性能、训练数据集和词汇量的影响。研究发现,分词器的选择可以显著影响模型的下游性能、训练和推理成本,并指出常用的分词器评估指标并不能准确预测模型性能,特别是多语言分词器在词汇量方面需要比英语增加三倍。在训练多语言LLMs时,仅采用英语分词器会导致严重的性能下降和高达68%的额外训练成本,因为其分词词汇表效率低下。
Oct, 2023
这篇论文通过学习词边界将字节/字符聚合成词表示,并在主要语言模型中解码个别字符/字节,结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节/字符模型更好,特别是在稀有词方面达到了30倍的效果提升。
Oct, 2023
本文展示了在三项预测任务中使用音素单元和DAU分词的优势,包括字素到音素、字素到DAU和使用DAU语言建模的无监督语音生成,并且证明了分词在性能、训练和推理速度上的显著改进,同时提供了理论解释。
Jun, 2024
本文旨在从形式角度奠定分词(Tokenization)的基础,通过阐述和扩展随机映射类别的基本属性,我们提出了一个统一的框架来表示和分析分词器模型,同时讨论了设计和实施分词器模型所必不可少的统计和计算问题。这项工作向神经语言建模的稳健理论基础迈出了一步。
Jul, 2024
本研究解决了传统语音分词与语言模型训练独立的问题,通过利用预训练文本语言模型的目标优化语音分词器的训练方式。新方法不仅有效提升了语音模型的聚类效果,还实现了单一预训练语言模型处理语音和文本输入,显著优于传统方法。
Sep, 2024