通过理解和学习辅助文本翻译任务来提高语音翻译

ACLJul, 2021

通过理解和学习辅助文本翻译任务来提高语音翻译

Improving Speech Translation by Understanding and Learning from the Auxiliary Text Translation Task

Yun Tang, Juan Pino, Xian Li, Changhan Wang, Dmitriy Genzel

TL;DR本文研究了在多任务学习框架下，辅助文本翻译任务对语音到文本翻译任务的影响及参数共享等解决方案，提出三种方法以提高翻译质量，实验结果表明该方法在几种语种翻译任务中相对于基线都达到了最新水平。

Abstract

pretraining and multitask learning are widely used to improve the speech to text translation performance. In this study, we are interested in training a →

pretraining multitask learning speech to text translation text to text translation parameter sharing

发现论文，激发创造

重思和改进端到端语音翻译的多任务学习

通过应用多任务学习，已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性，并提出了一种改进的多任务学习方法，通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外，当使用额外的数据时，我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。

Nov, 2023

通过利用辅助语音和文本数据来改善端到端语音翻译

本文提出了一种将文本编码器引入预训练端到端语音翻译系统的方法，该方法可以提高适应一种模态到另一种模态的能力，特别是在源语言文本数据丰富的情况下，使得语音翻译模型可以从无标签和有标签数据中学习，并且还提出了一种去噪文本编码器的方法。在 MuST-C En-De、En-Fr 和 LibriSpeech En-Fr 任务上，该系统创造了新的最新技术。

Dec, 2022

从辅助文本翻译任务中提高端到端文本图像翻译的效果

本研究提出了一种新的文本翻译增强的端到端文本图像翻译方法，采用多任务学习方式，通过将翻译作为辅助任务来训练端到端模型，利用易得的大规模文本平行语料库，取得了比现有方法更好的实验结果，证明翻译和识别辅助任务是互补的。

Oct, 2022

跨模态多任务语音转文字翻译与参数共享

最近的研究在端到端语音到文本翻译（ST）中提出了多任务方法，通过辅助编码器将机器翻译（MT）数据映射到最终的跨模态表示中，采用软参数共享。本研究提出了一种具有硬参数共享的 ST/MT 多任务框架，通过预处理阶段将语音和文本输入转换为两个长度相似的离散令牌序列，从而减少了语音 - 文本模态差异。通过在 MuST-C 上的实验，我们证明了我们的多任务框架平均提高了 0.5 BLEU 的关注编码器 - 解码器、连接时序分类（CTC）、转录器和联合 CTC / 关注模型，而无需外部 MT 数据。此外，我们还展示了这个框架的融入外部 MT 数据可以产生 0.8 BLEU 的改进，并且可以提高从预训练的文本模型进行迁移学习，从而产生 1.8 BLEU 的改进。

Sep, 2023

神经语音翻译的绑定多任务学习

本文探讨了用于神经语音翻译的多任务模型，并对其进行增强，以反映两个直观概念。精准的中间表示和神经关联的模式，参与模型的训练可以提高低资源语音转录和翻译任务的性能。

Feb, 2018

语音翻译和识别的统一语音文本预训练

本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法，其中包括四个自监督和有监督的子任务以进行跨模态学习，其贡献在于将文本语料库中的语言信息整合到语音预训练中。

Apr, 2022

自动语音翻译的跨语言转移学习改进

本论文旨在通过语义知识蒸馏来改进多语言语音转文本翻译中的跨语言迁移学习。通过使用 SAMU-XLS-R 来初始化编码器，我们在 CoVoST-2 和 Europarl 语音转文本数据集上实现了比基线模型更好的交叉语言任务知识传输，其中平均提高了 12.8 个 BLEU 分数。在零 - shot 翻译情景下，我们在未见过的中低资源语言上平均提高了 18.8 分和 11.9 个 BLEU 分数。

Jun, 2023

利用文本数据增强语音转文本任务的通用多任务学习框架

本文提出了一种多任务学习框架，利用文本数据来提高自动语音识别和语音翻译的性能，其中包括基于注意力的序列到序列建模、去噪自动编码器、机器翻译等技术。在英语语音识别任务中，该方法相对于基线线下降了 10~15% 的词错误率，在 MuST-C 任务中有 3.6~9.2 BLEU 的提高。

Oct, 2020

基于形式不可知元学习的数据高效直接语音翻译

本文提出了一种基于元学习算法采用模态不可知的多任务模型，将源任务 ASR + MT 的知识转移到目标任务 ST 中，以应对 ST 任务短缺数据的问题，该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。

Nov, 2019

基于深度多任务学习的双语稀缺情境神经机器翻译

本文提出了一种基于多任务学习方法，利用源端的单语言语言资源来解决神经机器翻译中由于缺少平行文本造成模型质量差的问题，并采用语义分析、句法分析和命名实体识别等辅助任务以将语义和 / 或句法知识注入到翻译模型中，实现了在英法、英波斯和英越三种翻译任务上的有效性验证。

May, 2018