SpiRit-LM: 交叉融合的口语和书面语言模型

Feb, 2024

SpiRit-LM: 交叉融合的口语和书面语言模型

SpiRit-LM: Interleaved Spoken and Written Language Model

Tu Anh Nguyen, Benjamin Muller, Bokai Yu, Marta R. Costa-jussa, Maha Elbayad...

TL;DR我们介绍了 SPIRIT-LM，这是一个混合文本与语音的基础多模态语言模型。我们基于一个预训练的文本语言模型扩展到语音模态，通过在文本和语音单元上进行连续训练来实现。语音和文本序列被连接为一组单词，并使用小型的自动化筛选的语音 - 文本平行语料库以单词级交错方法进行训练。SPIRIT-LM 有两个版本：一个基础版本使用语音语义单元，一个富有表现力版本除了语义单元，还使用音调和风格单元进行表达能力建模。对于两个版本，文本使用子词 BPE 单元进行编码。该模型展示了文本模型的语义能力和语音模型的表达能力。此外，我们证明 SPIRIT-LM 能够跨多模态（如：ASR，TTS，语音分类）以几次学习的方式学习新任务。

Abstract

We introduce spirit-lm, a foundation multimodal language model that freely mixes text and →

spirit-lm multimodal language model text speech expressive abilities

发现论文，激发创造

面向语音单元和文本的联合语言建模

探索联合的语言建模方法，比较不同语音分词方法和语音 - 文本混合数据构建方法，通过自动指标评估联合语言模型的混合效果，在不同模态下对下游口语理解任务进行微调并测试其性能，结果表明通过混合我们提出的语音单元和文本的方法，联合语言模型在口语理解任务上超过了单独语音的基准模型，并显示出跨模态的零 - shot 传递能力。

Oct, 2023

SLM：填补语音与文本基础模型之间的差距

我们提出了一种联合语音与语言模型（SLM），它是一种多任务、多语种、双模态的模型，充分利用了预训练的语音和语言基础模型。SLM 通过将预训练的基础模型冻结，最大限度地保留它们的能力，并只训练一个只包含 1％（156M）基础模型参数的简单适配器，从而在传统任务（如语音识别和语音翻译）上取得了强大的性能，同时还具备了零 - shot 指导的新颖能力，能够完成包括上下文偏置语音识别、对话生成、语音延续和问答等多样化任务。我们的方法表明，预训练的语音和语言模型之间的表征差距可能比人们预期的要小，并可以通过简单的适应机制来弥合。因此，SLM 不仅训练高效，而且继承了不同模态基础模型已经具备的强大能力。

Sep, 2023

跨可转移的语音转文大型语言模型对齐模块

利用大型语言模型（LLMs）和语音基础模型，先进的语音 - 文本双模工作可以实现复杂的任务，如口语翻译（ST）和问题回答（SQA），同时具有更简单的结构。本文利用 Whisper 编码器和预训练的 Yi-6B 的功能，通过经验结果发现，使用一个层的模块和百小时的语音 - 文本多任务语料库可以实现模态对齐。我们在推理过程中进一步交换 Yi-6B 为与人类偏好相符的 Yi-6B-Chat 版本，发现模态对齐能力同样适用。此外，奇异值分解（SVD）揭示的对齐子空间还意味着线性对齐子空间是稀疏的，这为连接其他特征（如声纹或视频）以扩展模态性留下了可能性。

Jun, 2024

SpeechLM: 用非配对文本数据增强的语音预训练

提出了一种跨模态的语音和语言模型，使用两种不同的离散标记器来处理语音和文本模态，取得了优异的成绩，尤其表现出色的是在 CoVoST-2 语音翻译任务上。

Sep, 2022

PSLM: 并行生成用于低延迟口语对话系统的文本和语音的 LLM

多模式语言模型通过扩展输入和输出序列，支持并行生成文本和语音，从而改善响应生成的延迟，并保持响应内容的质量。在口语问答任务上的实验证明，该方法进一步通过生成多个语音序列来减少延迟。

Jun, 2024

具有语音能力的语言模型：突破语音标记的口语语言建模

SPECTRON 是一种新的方法，用于适应预训练的语言模型来执行语音延续，它利用预训练的语音编码器，在谱图上生成文本和语音输出，并通过端到端的方式进行训练。

May, 2023

BLSP：基于继续写作行为对齐的语音 - 文本预训练引导

通过行为对齐的方式，我们提出了一种轻量级的语言 - 语音预训练方法，将大型语言模型（LLMs）的能力扩展到语音识别、语音翻译、口语理解和对话等领域，实现了语音和文本之间的模态对齐。

Sep, 2023

通过多指令训练教授一种多语言的大型语言模型理解多语言语音

利用多语言语言模型与多语言语音编码器，本研究提出 BLOOMZMMS，旨在为语音识别及其它领域利用大型语言模型的能力。通过多指令训练方法，我们验证了从文本到语音模态的语言知识的可传递性。实验证明，可以有效地学习并使多语言语音表征与多语言语言模型对齐。尽管初始表征在任务泛化方面存在局限性，但我们通过生成多指令样式的合成目标解决了这个问题。零样本评估结果证实了我们的方法在多种任务上的强大鲁棒性，包括语音翻译和多语言口语理解，从而为语音领域应用大型语言模型开辟了新的途径。

Apr, 2024

mSLAM：面向文本和语音的大规模多语言联合预训练

mSLAM 是一种多语言语音和语言模型，通过在多种语言的大量无标记语音和文本上联合预训练学习跨语言跨模式表示。

Feb, 2022

ST-BERT：跨模态语言模型预训练用于端到端口语理解

本文介绍了一种跨模态预训练语言模型 ——Speech-Text BERT（ST-BERT），通过两种预训练任务（Cross-modal Masked Language Modeling and Cross-modal Conditioned Language Modeling）学习上下文跨模态对齐，对端到端的口语语言理解任务进行了解决，实验结果证明，该方法有效。同时，我们的方法通过使用特定于域的语音文本对数据进行域自适应预训练来提高 SLU 性能的表现。

Oct, 2020