多对多口语翻译通过统一语音和文本表征学习与单元翻译

Aug, 2023

多对多口语翻译通过统一语音和文本表征学习与单元翻译

Many-to-Many Spoken Language Translation via Unified Speech and Text Representation Learning with Unit-to-Unit Translation

PDF

Minsu Kim, Jeongsoo Choi, Dahun Kim, Yong Man Ro

TL;DR我们提出了一种方法，通过单一模型学习多语言语音和文本的统一表示，特别关注语音合成的目的。我们使用语音单元表示多语言语音音频，这是从自我监督语音模型编码的语音特征的量化表示。因此，我们可以将语音视为伪文本，并构建语音和文本的统一表示。然后，我们提出在多语言数据上通过单位到单位翻译 (UTUT) 目标训练编码器 - 解码器结构模型。通过使用源语言标记来确定编码器，使用目标语言标记来确定解码器，该模型被优化为将口语语言翻译为目标语言的翻译模型。因此，该模型可以建立口语语言的理解方式，并将其与不同语言相关联。单个经过预训练的 UTUT 模型可以用于各种多语言语音和文本相关任务，如语音到语音翻译 (STS)、多语言文本到语音合成 (TTS) 和文本到语音翻译 (TTST)。我们通过包含各种语言的综合实验验证了所提出方法的有效性。此外，我们展示了 UTUT 可以执行先前在文献中未探索的多对多语言 STS。样例可在此网址获取：https://URL

Abstract

In this paper, we propose a method to learn unified representations of multilingual speech and text with a single model, especially focusing on the purpose of speech synthesis. We represent →

multilingual speech speech synthesis unit-to-unit translation multilingual data language sts

发现论文，激发创造

SpeechUT：基于编码器 - 解码器的语音 - 文本预训练中隐藏单元的桥接

本文提出了 SpeechUT 单一模态语音单元与文本预训练模型，使用隐藏单元对齐语音和文本，并分别使用未配对的语音和文本数据进行联合预训练。该方法在自动语音识别和语音翻译任务中取得了最先进的性能。

Oct, 2022

多语言端到端语音翻译

本文提出了一种简单且有效的多语言端到端语音翻译框架，并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。

Oct, 2019

使用离散单元进行直接语音到语音翻译

本研究提出一种直接语音到语音的翻译模型，它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音，并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译，以预测目标语音的离散表示，并在同一推断通过实现同步生成双重模态输出（语音和文本）。在 Fisher 西班牙语 - 英语数据集上，我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译，当没有文本转录时，我们的模型表现与训练有文本监督的谱图预测模型相当。

Jul, 2021

通过语音翻译辅助的端到端口语理解

利用跨语言语音翻译 (ST) 作为预训练任务可提高单语和多语意图分类，口语问答的性能，并探索模型的贝叶斯迁移学习和持续学习惯性。

May, 2023

语音翻译和识别的统一语音文本预训练

本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法，其中包括四个自监督和有监督的子任务以进行跨模态学习，其贡献在于将文本语料库中的语言信息整合到语音预训练中。

Apr, 2022

基于单元的无平行数据语音翻译

本文提出了一种基于自动发现独立单元的无监督语音到语音翻译系统，使用三步训练过程，避免使用自动语音识别和文本转语音模型，在合成语音上的实验结果表明该方法可行。

May, 2023

听、懂、翻译：三重监督解耦端到端语音翻译

本文提出 Listen-Understand-Translate (LUT) 统一框架，利用三重信号指导对端到端语音到文本翻译任务进行解耦，成功地应用于各种语音翻译基准测试中，实现了最先进的性能，优于以前的方法。

Sep, 2020

SLAM: 通过语音 - 文本联合预训练实现语音和语言建模的统一编码器

将无监督预训练应用于语言理解，在语音和文本之间建立单一模型，包括 BERT 目标和 w2v-BERT 目标以及其他预训练技术改进，同时在 GLUE 任务中也取得了不俗的竞争力。

Oct, 2021

UnitY：使用离散单元进行两阶段直接语音翻译

本文提出了一种名为 UnitY 的新型两遍直接 S2ST 架构，通过子词预测、先进的两遍解码器架构设计和搜索策略以及更好的训练规则等技术实现模型性能的提升，其在多个基准数据集上表现出比单遍语音转换模型高 2.5-4.2 ASR-BLEU 分数且同时具有 2.83 倍的解码速度提速。

Dec, 2022

无监督语音文本翻译

本文提出了一种基于单语音频和文本语料库的语音翻译系统框架，使用交叉模态双语词典将每个源语音片段对应到目标文本翻译，通过使用语言模型和序列去噪自编码器，对每个音频片段进行逐字翻译来提高翻译质量，实验结果表明，我们的无监督系统尽管没有监督，但达到了与监督方法相比可比的 BLEU 分数。

Nov, 2018