自我训练的端到端语音翻译

Jun, 2020

Self-Training for End-to-End Speech Translation

Juan Pino, Qiantong Xu, Xutai Ma, Mohammad Javad Dousti, Yun Tang

TL;DR本文主要探讨了在端到端语音翻译中数据稀缺的问题，并提出了一种利用级联和端到端语音翻译模型生成伪标签的方法，在 MuST-C 英法和英德数据集上达到了领先水平，同时也比仅对编码器进行语音识别任务的预训练方法更加有效。最后，通过直接使用端到端模型生成伪标签的自我训练方法证明了其有效性。

Abstract

One of the main challenges for end-to-end speech translation is data scarcity. We leverage pseudo-labels generated from unlabeled audio by a cascade and an →

end-to-end speech translation data scarcity pseudo-labels self-training state-of-the-art performance

发现论文，激发创造

端到端语音识别的自训练

本文探讨了自我训练在端到端语音识别中的应用，并展示给出了使用伪标签训练深度学习模型的方法，经过实验证明了该方法可以大幅提高基准模型的准确率，通过使用语音和语言模型生成伪标签和一些序列到序列模型的过滤机制，并采用新颖的集成方法提高伪标签的多样性，实验结果表明，在噪声语音环境下，使用自我训练的集成模型可以相对于只使用 100 小时标记数据的基准模型，使字错率（WER）提高了 33.9％；在清晰语音环境下，自我训练可以弥补基准模型和理想模型之间相对提高了至少 93.8％的差距。

Sep, 2019

使用自监督预训练和数据增强增强的直接语音翻译

本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题，探索了自监督预训练和数据增强技术来解决此问题，实验表明自监督预训练可以提高模型性能，结合数据增强技术可以进一步提高模型性能。

Apr, 2022

简单有效的无监督语音翻译

本文利用无监督语音识别、机器翻译与语音合成技术，探讨实现无标注数据建立语音翻译系统的方法，通过管道方法或生成伪标签，对端到端语音翻译模型进行训练。同时，提出一种无监督域自适应方法，能够提供一定的性能提升。实验结果表明，本文提出的无监督语音翻译方法，在 Libri-Trans 基准测试的 BLEU 分数上超过以前报告的无监督效果的 3.2 个点，在 CoVoST2 数据集上，本文的最佳系统相对于最佳监督学习的端到端模型（无预训练），在五个语种（X-En）上平均提高 5.0 个 BLEU 分数。在 MuST-C 和 CVSS 基准测试上，本文也取得了有竞争力的结果。

Oct, 2022

联合语音转录和翻译：使用 Out-of-Distribution 数据进行伪标签

本文研究使用自训练和伪标签技术，通过数据增强和过滤等手段，在语音识别中克服领域不匹配问题，从而提高了 0.6% 的音字误率和 2.2 个 BLEU 值百分点。

Dec, 2022

自我监督表示改善端到端语音翻译

本文旨在探索自监督预训练语音表示是否可以优化高和低资源语音翻译任务，并且这些语音表示是否可以有效地和其他常见的低资源端到端语音翻译方法相结合，以及这些表示是否可以良好地跨语种迁移。结果表明，自监督预训练功能可以始终提高翻译性能，并且跨语言传输可以扩展到各种语言而无需或只需要少量调整。

Jun, 2020

语音翻译的大规模自监督和半监督学习

通过利用大量未标记的语音和文本数据（包括 Libri-Light 语音音频语料库和 CommonCrawl 语言建模）的预训练和自我训练，我们的实验结果表明，在不利用监督学习数据的前提下，通过 wav2vec 2.0 预训练、自我训练和配合语言模型的方法，能够使所有四个 CoVoST 2 语言对的 BLEU 平均值提高 2.6。代码和模型将公开发布。

Apr, 2021

利用弱监督数据提高端到端的语音到文本翻译

本文探讨了使用预训练的机器翻译或文本到语音合成模型将弱监督数据转化为语音到翻译对对于 ST 的训练比多任务学习效果更好的问题，展示了只使用弱监督数据即可以获得高质量的终到端 ST 模型，并讨论了避免模型对合成的语音过度拟合的方法。

Nov, 2018

多语言一对多端到端语音翻译

本文旨在通过使用多语言方法探究转移学习在以端到端神经模型进行口语翻译中的有效性，结果表明，使用目标语言嵌入语义空间可以更有效地区分不同目标语言并改进结果，其中当对相似语言进行翻译时效果更为显著，特别是数据不足的情况下。

Oct, 2019

通过利用辅助语音和文本数据来改善端到端语音翻译

本文提出了一种将文本编码器引入预训练端到端语音翻译系统的方法，该方法可以提高适应一种模态到另一种模态的能力，特别是在源语言文本数据丰富的情况下，使得语音翻译模型可以从无标签和有标签数据中学习，并且还提出了一种去噪文本编码器的方法。在 MuST-C En-De、En-Fr 和 LibriSpeech En-Fr 任务上，该系统创造了新的最新技术。

Dec, 2022

基于端到端的语音转文本翻译的比较研究

本文介绍了深度学习在语音到文本翻译领域的应用，主要研究了不同端到端架构以及辅助性连接主义时间分类（CTC）损失函数的使用，着重探讨了预训练模型对最终性能的影响，实验证明预训练模型可以使 BLEU 指标提高 4％，TER 指标提高 5％，并且在 270 小时 IWSLT TED 演讲 En->De 和 100 小时 LibriSpeech Audiobooks En->Fr 上的实验结果表明，该方法可以超过当前的端到端最先进系统。

Nov, 2019