MSLM-S2ST：一个适用于无文本语音到语音翻译的多任务语音语言模型，保持说话人风格

Mar, 2024

MSLM-S2ST：一个适用于无文本语音到语音翻译的多任务语音语言模型，保持说话人风格

MSLM-S2ST: A Multitask Speech Language Model for Textless Speech-to-Speech Translation with Speaker Style Preservation

Yifan Peng, Ilia Kulikov, Yilin Yang, Sravya Popuri, Hui Lu...

TL;DR该研究提出了一种名为 Multitask Speech Language Model（MSLM）的解码器模型，通过在多任务环境下训练，实现了无需文本训练数据的多语言语音翻译（S2ST），并具备说话者风格保留的能力。

Abstract

There have been emerging research interest and advances in speech-to-speech translation (S2ST), translating utterances from one language to another. This work proposes multitask speech language model (MSLM), which is a decoder-only speech language model trained in a multitask setting.

speech-to-speech translation multitask speech language model decoder-only speech language model multilingual s2st speaker style

发现论文，激发创造

多语言语音翻译至多个目标语言

提出了一种支持多个目标语言的多语言语音翻译模型，采用语音单元和语音合成器进行多语言扩展，并在基准翻译测试集中表现优于双语模型。

Jul, 2023

真实数据上的无字幕语音翻译

我们提出了一种无需文本数据即可构建的无文本语音到语音翻译系统，采用了自监督单元级别的语音标准化技术来优化多说话者语音的模型，仅使用了 10 分钟的数据训练该技术，可在 VoxPopuli S2ST 数据集上实现平均 3.2 BLEU 分数的增益，是首次建立了可用于多种语言对的无文本 S2ST 技术。

Dec, 2021

无文本直接语音翻译与离散语音表示

本文提出了一种基于 Translatotron 2 的 Textless Translatotron 模型，使用预处理的无监督语音数据的语音编码器进行训练，针对缺乏书面形式的语言进行端到端的直接语音翻译，效果优于之前的最佳无文本模型，且在多语言和双语语料库上，翻译质量几乎与 Translatotron 2 相当。

Oct, 2022

SeamlessExpressiveLM: 链条思维情感语言模型用于表达性语音到语音翻译

提出了 SeamlessExpressiveLM，一个用于表情化语音到语音翻译的单一语言模型，通过分解复杂的源到目标语音映射为中间生成步骤，并结合思维链引导模型，实现了在西班牙语到英语和匈牙利语到英语翻译中优于级联语言模型的语义质量和风格转移效果，同时实现了更好的参数效率。

May, 2024

使用离散单元进行直接语音到语音翻译

本研究提出一种直接语音到语音的翻译模型，它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音，并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译，以预测目标语音的离散表示，并在同一推断通过实现同步生成双重模态输出（语音和文本）。在 Fisher 西班牙语 - 英语数据集上，我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译，当没有文本转录时，我们的模型表现与训练有文本监督的谱图预测模型相当。

Jul, 2021

一种弱监督的流式多语言语音模型，具有真正的零 - shot 能力

本文介绍了建立流式多语言语音模型 (SM2) 的工作，基于 Transformer Transducer，使用弱监督数据通过机器翻译服务训练模型，拥有较强的流式能力和真正的零 - shot 能力，并取得了非常好的翻译质量。

Nov, 2022

SLM：填补语音与文本基础模型之间的差距

我们提出了一种联合语音与语言模型（SLM），它是一种多任务、多语种、双模态的模型，充分利用了预训练的语音和语言基础模型。SLM 通过将预训练的基础模型冻结，最大限度地保留它们的能力，并只训练一个只包含 1％（156M）基础模型参数的简单适配器，从而在传统任务（如语音识别和语音翻译）上取得了强大的性能，同时还具备了零 - shot 指导的新颖能力，能够完成包括上下文偏置语音识别、对话生成、语音延续和问答等多样化任务。我们的方法表明，预训练的语音和语言模型之间的表征差距可能比人们预期的要小，并可以通过简单的适应机制来弥合。因此，SLM 不仅训练高效，而且继承了不同模态基础模型已经具备的强大能力。

Sep, 2023

流式语音：多任务学习与同时语音翻译

Simultaneous speech-to-speech translation (Simul-S2ST) is achieved through StreamSpeech, a unified model that incorporates translation and simultaneous policy in multi-task learning, providing high-quality intermediate results and a comprehensive real-time communication experience.

Jun, 2024

结合语音和双语文本的联合预训练，用于直接语音翻译

本文提出了一种基于不对称数据的语音到语音模型 Speech2S，利用双语文本数据训练模型可以有效地模拟跨语言的语音转换，实验结果显示，Speech2S 的表现比现有的最先进模型更好。

Oct, 2022

重思和改进端到端语音翻译的多任务学习

通过应用多任务学习，已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性，并提出了一种改进的多任务学习方法，通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外，当使用额外的数据时，我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。

Nov, 2023