利用文本数据增强语音转文本任务的通用多任务学习框架

Oct, 2020

利用文本数据增强语音转文本任务的通用多任务学习框架

A General Multi-Task Learning Framework to Leverage Text Data for Speech to Text Tasks

Yun Tang, Juan Pino, Changhan Wang, Xutai Ma, Dmitriy Genzel

TL;DR本文提出了一种多任务学习框架，利用文本数据来提高自动语音识别和语音翻译的性能，其中包括基于注意力的序列到序列建模、去噪自动编码器、机器翻译等技术。在英语语音识别任务中，该方法相对于基线线下降了 10~15% 的词错误率，在 MuST-C 任务中有 3.6~9.2 BLEU 的提高。

Abstract

attention-based sequence-to-sequence modeling provides a powerful and elegant solution for applications that need to map one sequence to a different sequence. Its success heavily relies on the availability of large amounts of training data. This presents a challenge for speech applicat

attention-based sequence-to-sequence modeling automatic speech recognition speech translation multi-task learning framework denoising autoencoder

发现论文，激发创造

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

重思和改进端到端语音翻译的多任务学习

通过应用多任务学习，已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性，并提出了一种改进的多任务学习方法，通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外，当使用额外的数据时，我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。

Nov, 2023

语音翻译和识别的统一语音文本预训练

本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法，其中包括四个自监督和有监督的子任务以进行跨模态学习，其贡献在于将文本语料库中的语言信息整合到语音预训练中。

Apr, 2022

通过利用辅助语音和文本数据来改善端到端语音翻译

本文提出了一种将文本编码器引入预训练端到端语音翻译系统的方法，该方法可以提高适应一种模态到另一种模态的能力，特别是在源语言文本数据丰富的情况下，使得语音翻译模型可以从无标签和有标签数据中学习，并且还提出了一种去噪文本编码器的方法。在 MuST-C En-De、En-Fr 和 LibriSpeech En-Fr 任务上，该系统创造了新的最新技术。

Dec, 2022

基于形式不可知元学习的数据高效直接语音翻译

本文提出了一种基于元学习算法采用模态不可知的多任务模型，将源任务 ASR + MT 的知识转移到目标任务 ST 中，以应对 ST 任务短缺数据的问题，该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。

Nov, 2019

使用统一的语音与文本编码器 - 解码器来改善 ASR

本研究利用外部文本数据提高自动语音识别的性能，探讨了一种方法，在共享解码器和编码器部分的集合中，联合训练自动语音识别和掩码语言模型。经实验验证，该方法在测试中取得了非常好的效果，耗时不增加。

Feb, 2022

通过理解和学习辅助文本翻译任务来提高语音翻译

本文研究了在多任务学习框架下，辅助文本翻译任务对语音到文本翻译任务的影响及参数共享等解决方案，提出三种方法以提高翻译质量，实验结果表明该方法在几种语种翻译任务中相对于基线都达到了最新水平。

Jul, 2021

利用弱监督数据提高端到端的语音到文本翻译

本文探讨了使用预训练的机器翻译或文本到语音合成模型将弱监督数据转化为语音到翻译对对于 ST 的训练比多任务学习效果更好的问题，展示了只使用弱监督数据即可以获得高质量的终到端 ST 模型，并讨论了避免模型对合成的语音过度拟合的方法。

Nov, 2018

无监督语音文本翻译

本文提出了一种基于单语音频和文本语料库的语音翻译系统框架，使用交叉模态双语词典将每个源语音片段对应到目标文本翻译，通过使用语言模型和序列去噪自编码器，对每个音频片段进行逐字翻译来提高翻译质量，实验结果表明，我们的无监督系统尽管没有监督，但达到了与监督方法相比可比的 BLEU 分数。

Nov, 2018

MMSpeech: 面向语音识别的多模态多任务编码器解码器预训练

该论文提出了一种新的多模态多任务编码 - 解码器预训练框架 (MMSpeech), 用于汉语自动语音识别 (ASR), 该框架同时使用了未标注语音和文本数据，其中引入了音素模态来帮助捕捉汉语音频和文本之间的模态不变信息。通过在 AISHELL-1 数据集上的实验，该方法实现了最先进的性能，较其他预训练方法相对提高了超过 40%。

Nov, 2022