基于预训练模型的高效语音翻译
通过多任务训练,提出了一种使用两个注意力机制的端到端可训练模型,用于直接语音翻译。该模型明显优于其他基线模型,并能更有效地利用辅助训练数据,特别适合于多任务训练。
Apr, 2019
本文提出了一种端到端的可训练语音翻译模型,通过优化所有 ASR 和 MT 模型的参数而避免级联模型中的误差传播,并且通过使用人工神经网络实现 backpropagation 传递误差以实现同时提供转录和翻译,对于四个不同数据场景的实验表明,该模型在 BLEU 和 TER 方面均优于传统级联模型和直接模型。
Nov, 2020
本文主要探讨了在端到端语音翻译中数据稀缺的问题,并提出了一种利用级联和端到端语音翻译模型生成伪标签的方法,在 MuST-C 英法和英德数据集上达到了领先水平,同时也比仅对编码器进行语音识别任务的预训练方法更加有效。最后,通过直接使用端到端模型生成伪标签的自我训练方法证明了其有效性。
Jun, 2020
通过实验研究,我们发现在资源有限的情况下,从字符级识别转化成单词级可以显著提高低资源语言语音翻译的速度,并且在训练数据相对较少的情况下,仍然可以实现相对较高的词汇精度和召回率。
Mar, 2018
本文介绍了深度学习在语音到文本翻译领域的应用,主要研究了不同端到端架构以及辅助性连接主义时间分类(CTC)损失函数的使用,着重探讨了预训练模型对最终性能的影响,实验证明预训练模型可以使 BLEU 指标提高 4%,TER 指标提高 5%,并且在 270 小时 IWSLT TED 演讲 En->De 和 100 小时 LibriSpeech Audiobooks En->Fr 上的实验结果表明,该方法可以超过当前的端到端最先进系统。
Nov, 2019
本文旨在探索自监督预训练语音表示是否可以优化高和低资源语音翻译任务,并且这些语音表示是否可以有效地和其他常见的低资源端到端语音翻译方法相结合,以及这些表示是否可以良好地跨语种迁移。结果表明,自监督预训练功能可以始终提高翻译性能,并且跨语言传输可以扩展到各种语言而无需或只需要少量调整。
Jun, 2020
研究了一种在会议或会谈中进行同时语音翻译的应用程序,并探讨了使用在线口语翻译模型建立在线口语翻译系统的一般方法以及针对这种方法采用不同的语言和体系结构的多语种模型与端对端模型的能力。所提出的方法通过对 TEDx 语料库的实验证明,相似的潜在优势。
Mar, 2022
本文探讨了使用预训练的机器翻译或文本到语音合成模型将弱监督数据转化为语音到翻译对对于 ST 的训练比多任务学习效果更好的问题,展示了只使用弱监督数据即可以获得高质量的终到端 ST 模型,并讨论了避免模型对合成的语音过度拟合的方法。
Nov, 2018
本文介绍一种在有限计算预算下将英文预训练模型转移到其他语言的方法,使用单个 GPU,一天内可以获得一种新的外语 BERT 基础模型,并在六种语言上展示该方法在零样本任务上比多语言 BERT 更为有效的结果。
Feb, 2020
本研究探讨了在越南语和德语的医疗领域低资源对话电话语音语料库中使用无监督方法进行预训练,并讨论了如何适应实际的电话任务,包括带宽传输和不同的数据条件,该方法超过了基线 22% 的相对性能。
Oct, 2022