端到端语音翻译中，从不流畅的语音中获得流畅的翻译

ACLJun, 2019

端到端语音翻译中，从不流畅的语音中获得流畅的翻译

Fluent Translations from Disfluent Speech in End-to-End Speech Translation

Elizabeth Salesky, Matthias Sperber, Alex Waibel

TL;DR使用序列到序列模型实现了从具有语言障碍的演讲转化为流畅的文本，并且引入了如何评估此任务的考虑，为新任务提供了基础，即同时消除演讲中的语言障碍。

Abstract

spoken language translation applications for speech suffer due to conversational speech phenomena, particularly the presence of disfluencies. With the rise of end-to-end speech translation models, processing step

spoken language translation end-to-end model disfluencies sequence-to-sequence model evaluation

发现论文，激发创造

从不流畅的言语走向流利的翻译

本文提出了一种在端到端语音翻译模型中加入中间步骤的方法，以去除交谈式语音中的不流利现象，并引入了清理后的 Fisher 西班牙语 - 英语数据集，为清理含绕口令语音的翻译提供了一个基准。

Nov, 2018

端到端语音识别和修正发语障

探索使用端到端语音识别模型直接将混杂的语音转化为流畅的转录文本的可能性，并且我们提出了两个新的度量标准来评估集成 ASR 和无流畅度模型的性能，该论文的发现可以作为未来关于端到端语音识别和无流畅度处理任务的研究的基准。

Sep, 2020

基于序列到序列模型的直接语音到语音翻译

该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络，能够直接将一种语言的语音翻译成另一种语言的语音，无需中间文本表示，该方法通过学习将语音谱图映射到目标语言的谱图，同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验，证明了该方法在这个极具挑战的任务上的可行性。

Apr, 2019

语音的一致转录和翻译

本研究探索了一种同时实现语音转写和翻译的方法，并比较了传统串联式方法和端到端模型的表现。研究发现，直接模型不适用于这一任务，但采用耦合推理过程的端到端模型能够实现强一致性。此外，研究还引入了直接优化一致性的简单技术，并分析了一致性、转写准确性和翻译准确性之间的权衡。

Jul, 2020

基于声学语言模型预训练的端到端语音识别和流畅性修正

基于最近在大规模音频预训练方面的成功，我们重新评估两阶段和端到端模型之间的性能比较，并发现使用弱自监督目标进行音频预训练的语音模型与类似训练的两阶段模型的性能相匹配或超过，而预训练目标的选择显著影响模型适应去除启动词任务的能力。

Sep, 2023

端到端语音到文本翻译：综述

语音到文本翻译中的端到端模型的综述，包括模型、评估指标和数据集，提供了挑战和未来研究方向的新见解。

Dec, 2023

多语言端到端语音翻译

本文提出了一种简单且有效的多语言端到端语音翻译框架，并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。

Oct, 2019

知识蒸馏技术下的端到端语音翻译

本文提出了一种基于知识蒸馏的方法来提高端到端语音翻译 (ST) 模型的性能，通过从文本翻译模型中转移知识来训练 ST 模型。在英法增广 LibriSpeech 和英汉 TED 语料库上的实验结果表明，使用该方法可以对相似和不相似的语言对进行端到端 ST 实现，并且在老师模型的指导下，端到端 ST 模型可以取得 3.5 个 BLEU 分数的显着提升。

Apr, 2019

基于端到端的语音转文本翻译的比较研究

本文介绍了深度学习在语音到文本翻译领域的应用，主要研究了不同端到端架构以及辅助性连接主义时间分类（CTC）损失函数的使用，着重探讨了预训练模型对最终性能的影响，实验证明预训练模型可以使 BLEU 指标提高 4％，TER 指标提高 5％，并且在 270 小时 IWSLT TED 演讲 En->De 和 100 小时 LibriSpeech Audiobooks En->Fr 上的实验结果表明，该方法可以超过当前的端到端最先进系统。

Nov, 2019

流式联合语音识别和语调异常检测

本研究通过基于 Transformer 框架的编码器 - 解码器模型提出了一种联合解决语音识别和流式识别中断相关的自然语言分析难题的方法，将其与传统的流水线工艺相比较，表现出更优异的准确性和实时性。

Nov, 2022