基于端到端的语音转文本翻译的比较研究

Nov, 2019

基于端到端的语音转文本翻译的比较研究

A Comparative Study on End-to-end Speech to Text Translation

Parnia Bahar, Tobias Bieschke, Hermann Ney

TL;DR本文介绍了深度学习在语音到文本翻译领域的应用，主要研究了不同端到端架构以及辅助性连接主义时间分类（CTC）损失函数的使用，着重探讨了预训练模型对最终性能的影响，实验证明预训练模型可以使 BLEU 指标提高 4％，TER 指标提高 5％，并且在 270 小时 IWSLT TED 演讲 En->De 和 100 小时 LibriSpeech Audiobooks En->Fr 上的实验结果表明，该方法可以超过当前的端到端最先进系统。

Abstract

Recent advances in deep learning show that end-to-end speech to text translation model is a promising approach to direct the speech translation field. In this work, we provide an overview of different end-to-end

deep learning speech-to-text end-to-end architecture pre-training speech translation

发现论文，激发创造

有声读物端到端自动语音翻译

本研究旨在探讨在经过语料库特殊增强的情况下，对语音到文本翻译进行端到端的研究。我们不仅研究了在学习和解码期间没有源语言转录的极端情况，还研究了在训练时仅提供源语言转录的中间情况。实验结果表明，在这种设置下，可以训练出紧凑高效的端到端语音转换模型。同时，我们提供了语料库，并希望未来的研究能够挑战我们在该语料库上的语音翻译基线模型。

Feb, 2018

听写翻译：端到端语音转文本翻译的概念验证

本文是第一篇尝试构建不使用源语言转录的端到端语音到文本翻译系统的论文，并提出了一种直接语音到文本翻译的模型，在一小部分法英人造语料库上取得了有希望的结果。

Dec, 2016

连接预训练与微调：面向端到端语音翻译的差距缩小

本文提出使用 Tandem Connectionist Encoding Network 解决传统方法在 end-to-end 语音翻译中 fine-tuning 与 pre-training 之间巨大差距的问题，进而设计了两种简单且有效的方法保证语音编码器的输出和 MT 编码器的输入在语义表示和序列长度上一致。通过实验，我们的模型在一个大型基准数据集上优于基线 2.2 BLEU。

Sep, 2019

通过利用辅助语音和文本数据来改善端到端语音翻译

本文提出了一种将文本编码器引入预训练端到端语音翻译系统的方法，该方法可以提高适应一种模态到另一种模态的能力，特别是在源语言文本数据丰富的情况下，使得语音翻译模型可以从无标签和有标签数据中学习，并且还提出了一种去噪文本编码器的方法。在 MuST-C En-De、En-Fr 和 LibriSpeech En-Fr 任务上，该系统创造了新的最新技术。

Dec, 2022

从零开始重新审视端到端的语音到文本翻译

本文通过重新审视机器翻译中的 ST 和文本翻译任务技术，提出了一套训练 E2E ST 系统的最佳实践，其中包括参数化距离惩罚、模拟本地化技术等。实验表明，在不使用转录文本和预训练的情况下，该系统可以达到并甚至超过之前使用预训练方法的研究水平，对于极低资源环境依然有差距。此外，我们还首次证明了神经声学特征建模的可行性，并在 ST 任务中取得了令人鼓舞的效果。

Jun, 2022

探索迁移学习用于端到端语音理解

本文提出了一种多任务联合训练的端到端语音理解模型 “Audio-Text All-Task (AT-AT) Model”，该模型能够同时训练语音转文字、语音理解和文本理解任务，不仅可以在多个数据集上实现最优性能，还可用于零 - shot 端到端语音理解任务。

Dec, 2020

端到端语音到文本翻译：综述

语音到文本翻译中的端到端模型的综述，包括模型、评估指标和数据集，提供了挑战和未来研究方向的新见解。

Dec, 2023

利用弱监督数据提高端到端的语音到文本翻译

本文探讨了使用预训练的机器翻译或文本到语音合成模型将弱监督数据转化为语音到翻译对对于 ST 的训练比多任务学习效果更好的问题，展示了只使用弱监督数据即可以获得高质量的终到端 ST 模型，并讨论了避免模型对合成的语音过度拟合的方法。

Nov, 2018

知识蒸馏技术下的端到端语音翻译

本文提出了一种基于知识蒸馏的方法来提高端到端语音翻译 (ST) 模型的性能，通过从文本翻译模型中转移知识来训练 ST 模型。在英法增广 LibriSpeech 和英汉 TED 语料库上的实验结果表明，使用该方法可以对相似和不相似的语言对进行端到端 ST 实现，并且在老师模型的指导下，端到端 ST 模型可以取得 3.5 个 BLEU 分数的显着提升。

Apr, 2019

通过语音翻译辅助的端到端口语理解

利用跨语言语音翻译 (ST) 作为预训练任务可提高单语和多语意图分类，口语问答的性能，并探索模型的贝叶斯迁移学习和持续学习惯性。

May, 2023