端到端语音翻译的自适应特征选择

Oct, 2020

端到端语音翻译的自适应特征选择

Adaptive Feature Selection for End-to-End Speech Translation

Biao Zhang, Ivan Titov, Barry Haddow, Rico Sennrich

TL;DR本文介绍了自适应特征选择（AFS）来优化基于编码器 - 解码器的端到端语音翻译，实验表明，使用AFS来稀疏语音特征可以提高翻译效果，降低模型计算复杂度，并与级联基线模型相比取得了更好的性能，在LibriSpeech En-Fr上的BLEU分数达到了18.56。

Abstract

Information in speech signals is not evenly distributed, making it an additional challenge for end-to-end (E2E) speech translation (ST) to learn to focus on informative features. In this paper, we propose adaptive feature selection (AFS) for →

发现论文，激发创造

基于反向翻译的端到端自动语音识别数据增强

通过使用神经网络从大量未成对的文本中生成隐藏状态并重新训练 E2E-ASR 解码器，实现数据增强的自动语音识别方法，提高了性能和减少了未知词的数量。

Jul, 2018

交互解码同步语音识别与语音文本翻译

本文提出了一种新的交互式注意机制，使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行，实验表明，该模型在语音翻译和语音识别方面的性能表现均优于基线模型。

Dec, 2019

手机功能提升语言翻译

本研究比较了级联和端到端模型在不同资源条件下的性能，并在ST模型中引入电话特征以提高它们的表现，从而缩小了端到端模型与级联模型之间的差距。

May, 2020

堆叠声学 - 文本编码：将预训练模型整合进语音翻译编码器

本文提出了一种堆叠声音和文本编码方法（SATE），以改进现有的自动语音识别和机器翻译编码器不足，使其更适合于末端到末端的语音翻译任务。实验结果表明，我们的方法在LibriSpeech En-Fr 和 MuST-C En-De ST任务上，都获得了最新的BLEU分数。

May, 2021

使用统一的语音与文本编码器-解码器来改善ASR

本研究利用外部文本数据提高自动语音识别的性能，探讨了一种方法，在共享解码器和编码器部分的集合中，联合训练自动语音识别和掩码语言模型。经实验验证，该方法在测试中取得了非常好的效果，耗时不增加。

Feb, 2022

无参数领域自适应端到端语音翻译

本文提出了一种基于领域特定文本翻译语料库的非参数方法，用于增强E2E-ST系统在领域自适应中的效果，实验结果表明，相比于强烈的领域内微调方法，该方法在所有翻译方向上的平均基线BLEU值提高了12.82 BLEU，甚至超过了强大的领域内微调方法。

May, 2022

从零开始重新审视端到端的语音到文本翻译

本文通过重新审视机器翻译中的 ST 和文本翻译任务技术，提出了一套训练 E2E ST 系统的最佳实践，其中包括参数化距离惩罚、模拟本地化技术等。实验表明，在不使用转录文本和预训练的情况下，该系统可以达到并甚至超过之前使用预训练方法的研究水平，对于极低资源环境依然有差距。此外，我们还首次证明了神经声学特征建模的可行性，并在 ST 任务中取得了令人鼓舞的效果。

Jun, 2022

ESB：多域端到端语音识别基准测试

本文介绍了一个最新的基于端到端的语音识别测试平台，探讨了跨多个不同数据集和语音分布时对识别相同语音流的支持，并对不同的系统进行了比较分析分析，发现端到端系统在不同数据集的应用效果良好，并指出了如何改进现有语音识别系统存在的问题。

Oct, 2022

通过利用辅助语音和文本数据来改善端到端语音翻译

本文提出了一种将文本编码器引入预训练端到端语音翻译系统的方法，该方法可以提高适应一种模态到另一种模态的能力，特别是在源语言文本数据丰富的情况下，使得语音翻译模型可以从无标签和有标签数据中学习，并且还提出了一种去噪文本编码器的方法。在MuST-C En-De、En-Fr和LibriSpeech En-Fr任务上，该系统创造了新的最新技术。

Dec, 2022

端到端语音识别综述

该研究论文介绍了端到端自动语音识别模型的分类和改进，讨论了它们对传统隐马尔科夫模型的影响，涵盖了模型、训练、解码和外部语言模型集成等各个方面，同时讨论了性能和部署机会以及未来的发展前景。

Mar, 2023