手机功能提升语言翻译

May, 2020

Phone Features Improve Speech Translation

Elizabeth Salesky, Alan W Black

TL;DR本研究比较了级联和端到端模型在不同资源条件下的性能，并在ST模型中引入电话特征以提高它们的表现，从而缩小了端到端模型与级联模型之间的差距。

Abstract

end-to-end models for speech translation (ST) more tightly couple speech recognition (ASR) and machine translation (MT) than a traditional cascade of separate ASR and MT models, with simpler model architectures a

发现论文，激发创造

探索音素级别的端到端语音翻译表示

研究采用类音素语音表示替代传统帧级语音特征作为源输入，在端到端的语音翻译任务中，相比传统方法，模型性能有显著提高，同时训练时间减少了60%。

Jun, 2019

多语言端到端语音翻译

本文提出了一种简单且有效的多语言端到端语音翻译框架，并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。

Oct, 2019

低资源语音识别预训练的分析

本文探讨了如何提高低资源语言的自动语音翻译质量，研究表明在高资源语言上训练端到端自动语音识别模型可以有效提高自动语音译文质量，作者发现最终自动语音译文质量的最佳预测因素是预训练的ASR模型的词错误率，并且研究发现预训练和数据增强对AST翻译质量的提高是互补的。

Oct, 2019

语音翻译与端到端的承诺：回顾我们的现状

本文介绍了语音翻译技术从松散耦合的串联模型到紧耦合再到最近备受关注的端到端模型的发展历程，讨论了传统方法所面临的主要挑战和最新方法对克服这些问题的方案。通过对传统和最新方法进行统一分类和命名，以解决语音识别和数据缺失问题等开放性研究问题。

Apr, 2020

端到端语音翻译的自适应特征选择

本文介绍了自适应特征选择（AFS）来优化基于编码器 - 解码器的端到端语音翻译，实验表明，使用AFS来稀疏语音特征可以提高翻译效果，降低模型计算复杂度，并与级联基线模型相比取得了更好的性能，在LibriSpeech En-Fr上的BLEU分数达到了18.56。

Oct, 2020

联合语音识别和翻译的流式模型

本文介绍了如何使用端到端模型进行语音翻译，并在流式翻译设置中实现同时生成音频转录和翻译输出，并比较了与标准级联方法的表现，结果表明这种方法与级联模型的表现相似，但参数数量更少。

Jan, 2021

级联式翻译 vs 直接式翻译：这些差异是否仍然有所不同？

本研究通过对自然语言翻译中的直接方法与传统叠加方法的比较，系统地展示了两种范式之间的性能差距已经消失，它们的行为差异也被证明不足以让人区分或偏好其中的一种。

Jun, 2021

简单有效的无监督语音翻译

本文利用无监督语音识别、机器翻译与语音合成技术，探讨实现无标注数据建立语音翻译系统的方法，通过管道方法或生成伪标签，对端到端语音翻译模型进行训练。同时，提出一种无监督域自适应方法，能够提供一定的性能提升。实验结果表明，本文提出的无监督语音翻译方法，在Libri-Trans基准测试的BLEU分数上超过以前报告的无监督效果的3.2个点，在CoVoST2数据集上，本文的最佳系统相对于最佳监督学习的端到端模型（无预训练），在五个语种（X-En）上平均提高5.0个BLEU分数。在MuST-C和CVSS基准测试上，本文也取得了有竞争力的结果。

Oct, 2022

端到端语音到文本翻译：综述

语音到文本翻译中的端到端模型的综述，包括模型、评估指标和数据集，提供了挑战和未来研究方向的新见解。

Dec, 2023

将语音编码器与下游文本模型相结合

本研究提出了一种模块化的方法，用于构建级联语音翻译模型，确保所得到的模型在性能上不低于最佳级联基线，同时保持语音识别和文本翻译的最先进表现。论文的创新在于引入了“导出”层，通过L2损失训练，确保语音识别嵌入与文本翻译标记嵌入之间的良好匹配，从而实现性能提升，尤其在无法增量训练文本模型的情况下。

Jul, 2024