多语言语音翻译至多个目标语言

Jul, 2023

Multilingual Speech-to-Speech Translation into Multiple Target Languages

Hongyu Gong, Ning Dong, Sravya Popuri, Vedanuj Goswami, Ann Lee...

TL;DR提出了一种支持多个目标语言的多语言语音翻译模型，采用语音单元和语音合成器进行多语言扩展，并在基准翻译测试集中表现优于双语模型。

Abstract

speech-to-speech translation (s2st) enables spoken communication between people talking in different languages. Despite a few studies on multilin

speech-to-speech translation multilingual s2st speech-to-unit vocoder

发现论文，激发创造

多语言端到端语音翻译

本文提出了一种简单且有效的多语言端到端语音翻译框架，并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。

Oct, 2019

使用离散单元进行直接语音到语音翻译

本研究提出一种直接语音到语音的翻译模型，它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音，并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译，以预测目标语音的离散表示，并在同一推断通过实现同步生成双重模态输出（语音和文本）。在 Fisher 西班牙语 - 英语数据集上，我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译，当没有文本转录时，我们的模型表现与训练有文本监督的谱图预测模型相当。

Jul, 2021

MSLM-S2ST：一个适用于无文本语音到语音翻译的多任务语音语言模型，保持说话人风格

该研究提出了一种名为 Multitask Speech Language Model（MSLM）的解码器模型，通过在多任务环境下训练，实现了无需文本训练数据的多语言语音翻译（S2ST），并具备说话者风格保留的能力。

Mar, 2024

基于单元的无平行数据语音翻译

本文提出了一种基于自动发现独立单元的无监督语音到语音翻译系统，使用三步训练过程，避免使用自动语音识别和文本转语音模型，在合成语音上的实验结果表明该方法可行。

May, 2023

结合语音和双语文本的联合预训练，用于直接语音翻译

本文提出了一种基于不对称数据的语音到语音模型 Speech2S，利用双语文本数据训练模型可以有效地模拟跨语言的语音转换，实验结果显示，Speech2S 的表现比现有的最先进模型更好。

Oct, 2022

真实数据上的无字幕语音翻译

我们提出了一种无需文本数据即可构建的无文本语音到语音翻译系统，采用了自监督单元级别的语音标准化技术来优化多说话者语音的模型，仅使用了 10 分钟的数据训练该技术，可在 VoxPopuli S2ST 数据集上实现平均 3.2 BLEU 分数的增益，是首次建立了可用于多种语言对的无文本 S2ST 技术。

Dec, 2021

TranSpeech: 双向干扰下的语音翻译

本文提出了使用双向扰动的语音到语音翻译模型 TranSpeech，该模型通过样本的风格归一化和信息提升改善了离散单元之间的声学多模性，并且使用了非自回归技术来提高翻译速度和准确性。实验结果表明，与基准 S2ST 模型相比，BiP 平均提高了 2.9 BLEU 分数，并且我们的并行解码技术使推理延迟大幅降低。

May, 2022

面向现实无文字语言的语音翻译

该论文以英文 - 台湾闽南语为案例，研究了语音到语音的翻译，包括数据收集、建模和基准数据集的发布。通过人工注释、数据自动挖掘以及伪标注方法，收集了大量数据。在模型训练中，结合最近的自监督离散表示的应用以及与福建话相似的普通话文本监督，取得了良好的效果。最后，该论文推出了一个 S2ST 基准数据集，以助于未来的研究。

Nov, 2022

利用无监督和弱监督数据，提高直接语音翻译的准确性

本文旨在通过多种方法利用无监督和弱监督的语音和文本数据来提高基于 Translatotron 2 的直接语音到语音翻译系统的性能，实现在 21 种语言对上 BLEU 值提高 13.6（相对增长 113%），特别是对于低资源语言的提高更为显著（相对增长 398%）

Mar, 2022

基于离散单元的风格转换的语音到语音翻译

直接语音到语音翻译（S2ST）结合了离散的自监督表示，取得了显著的准确性，但无法在翻译过程中保留源语音的说话人音色。我们提出了一个基于自监督模型的离散单元和神经编解码器的 S2ST 框架，用于样式转换。声学语言模型利用自监督的上下文学习，获得了样式转换的能力，无需依赖任何说话人平行数据，从而克服了数据稀缺的问题。通过使用大量的训练数据，我们的模型可以在之前未见过的源语言上进行零 - shot 跨语言样式转换。实验证明，我们的模型生成的翻译语音在高保真度和样式相似性上表现出色。音频样本可在此网址获取。

Sep, 2023