Feb, 2024

SpiRit-LM: 交叉融合的口语和书面语言模型

TL;DR我们介绍了 SPIRIT-LM,这是一个混合文本与语音的基础多模态语言模型。我们基于一个预训练的文本语言模型扩展到语音模态,通过在文本和语音单元上进行连续训练来实现。语音和文本序列被连接为一组单词,并使用小型的自动化筛选的语音 - 文本平行语料库以单词级交错方法进行训练。SPIRIT-LM 有两个版本:一个基础版本使用语音语义单元,一个富有表现力版本除了语义单元,还使用音调和风格单元进行表达能力建模。对于两个版本,文本使用子词 BPE 单元进行编码。该模型展示了文本模型的语义能力和语音模型的表达能力。此外,我们证明 SPIRIT-LM 能够跨多模态(如:ASR,TTS,语音分类)以几次学习的方式学习新任务。