听写翻译：端到端语音转文本翻译的概念验证

NIPSDec, 2016

听写翻译：端到端语音转文本翻译的概念验证

Listen and Translate: A Proof of Concept for End-to-End Speech-to-Text Translation

Alexandre Berard, Olivier Pietquin, Christophe Servan, Laurent Besacier

TL;DR本文是第一篇尝试构建不使用源语言转录的端到端语音到文本翻译系统的论文，并提出了一种直接语音到文本翻译的模型，在一小部分法英人造语料库上取得了有希望的结果。

Abstract

This paper proposes a first attempt to build an end-to-end speech-to-text translation system, which does not use source language transcription during learning or decoding. We propose a model for direct

end-to-end speech-to-text translation source language transcription data collection methodology under-resourced scenarios

发现论文，激发创造

基于端到端的语音转文本翻译的比较研究

本文介绍了深度学习在语音到文本翻译领域的应用，主要研究了不同端到端架构以及辅助性连接主义时间分类（CTC）损失函数的使用，着重探讨了预训练模型对最终性能的影响，实验证明预训练模型可以使 BLEU 指标提高 4％，TER 指标提高 5％，并且在 270 小时 IWSLT TED 演讲 En->De 和 100 小时 LibriSpeech Audiobooks En->Fr 上的实验结果表明，该方法可以超过当前的端到端最先进系统。

Nov, 2019

有声读物端到端自动语音翻译

本研究旨在探讨在经过语料库特殊增强的情况下，对语音到文本翻译进行端到端的研究。我们不仅研究了在学习和解码期间没有源语言转录的极端情况，还研究了在训练时仅提供源语言转录的中间情况。实验结果表明，在这种设置下，可以训练出紧凑高效的端到端语音转换模型。同时，我们提供了语料库，并希望未来的研究能够挑战我们在该语料库上的语音翻译基线模型。

Feb, 2018

端到端语音到文本翻译：综述

语音到文本翻译中的端到端模型的综述，包括模型、评估指标和数据集，提供了挑战和未来研究方向的新见解。

Dec, 2023

无监督语音文本翻译

本文提出了一种基于单语音频和文本语料库的语音翻译系统框架，使用交叉模态双语词典将每个源语音片段对应到目标文本翻译，通过使用语言模型和序列去噪自编码器，对每个音频片段进行逐字翻译来提高翻译质量，实验结果表明，我们的无监督系统尽管没有监督，但达到了与监督方法相比可比的 BLEU 分数。

Nov, 2018

基于序列到序列模型的直接语音到语音翻译

该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络，能够直接将一种语言的语音翻译成另一种语言的语音，无需中间文本表示，该方法通过学习将语音谱图映射到目标语言的谱图，同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验，证明了该方法在这个极具挑战的任务上的可行性。

Apr, 2019

跨语言迁移学习的低资源语言端到端文本转语音

本文针对低资源语言语音合成任务，提出了从高资源语言中迁移知识的方法，并通过学习源与目标语言之间的语言符号映射，有效地构建了 TTS 系统，初步实验表明，只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。

Apr, 2019

语音的一致转录和翻译

本研究探索了一种同时实现语音转写和翻译的方法，并比较了传统串联式方法和端到端模型的表现。研究发现，直接模型不适用于这一任务，但采用耦合推理过程的端到端模型能够实现强一致性。此外，研究还引入了直接优化一致性的简单技术，并分析了一致性、转写准确性和翻译准确性之间的权衡。

Jul, 2020

从零开始重新审视端到端的语音到文本翻译

本文通过重新审视机器翻译中的 ST 和文本翻译任务技术，提出了一套训练 E2E ST 系统的最佳实践，其中包括参数化距离惩罚、模拟本地化技术等。实验表明，在不使用转录文本和预训练的情况下，该系统可以达到并甚至超过之前使用预训练方法的研究水平，对于极低资源环境依然有差距。此外，我们还首次证明了神经声学特征建模的可行性，并在 ST 任务中取得了令人鼓舞的效果。

Jun, 2022

多语言端到端语音翻译

本文提出了一种简单且有效的多语言端到端语音翻译框架，并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。

Oct, 2019

无需语音识别的语音到文本翻译

本文探讨语音转文本翻译的问题，使用无监督术语发现技术将音频文件转化为伪文本，并使用其进行简单的词袋机翻译，面对跨讲话者无监督术语发现的难题，系统实现了低召回率的跨语音翻译。

Feb, 2017