无参数领域自适应端到端语音翻译
本文通过重新审视机器翻译中的 ST 和文本翻译任务技术,提出了一套训练 E2E ST 系统的最佳实践,其中包括参数化距离惩罚、模拟本地化技术等。实验表明,在不使用转录文本和预训练的情况下,该系统可以达到并甚至超过之前使用预训练方法的研究水平,对于极低资源环境依然有差距。此外,我们还首次证明了神经声学特征建模的可行性,并在 ST 任务中取得了令人鼓舞的效果。
Jun, 2022
本文介绍了一种新颖的正则化方法用于 E2E-ST 系统的训练,并在 MuST-C 基准测试中显著优于现有技术,该正则化方法通过对 KL 散度进行约束,以更好地利用音频文字翻译三元组数据。
Dec, 2021
本研究提出了一种基于上下文偏差和似然比的方法,用于改善自然语言下的自动语音识别的效果。该方法以 1-Best 错误率为主要指标,在多个跨领域数据集上相对提高了 10%的识别正确率,同时也优化了 8-Best Oracle WER。
Jan, 2022
提出了一种基于自动编码器的 $k$NN-MT 方法,可以利用目标语言的单语句子构建有效的数据库来达到无监督的领域自适应翻译,从而提高翻译的准确性和可靠性。
Sep, 2021
本研究提出了一种方法 —— 学习统一的语音文本表示,在端到端的语音识别中实现快速适应,该方法可以使用文本语料库进行域自适应,同时还可以改善适应的效率,并与内部语言模型估计相结合,进一步提高性能。
Jun, 2023
提出了一种基于 Cross Speech-Text(XSTNet)网络的用于语音翻译的端到端模型,采用自监督预训练子网络作为音频编码器、多任务训练目标以及渐进式训练策略,并在 MuST-C En-X 和 LibriSpeech En-Fr 数据集上取得了最新的最佳效果,平均 BLEU 值为 28.8,优于之前的最佳方法 3.2 BLEU。
Apr, 2021
提出了一种称作 STAST 的语音转写自适应模型,通过分离语音翻译编码器为三个部分以及引入跨模态自适应方法来缩小语音和文本的模态差距,进而在英法和英德语音翻译数据集上实现了显著的性能优越。
Oct, 2020
本文提出了一种基于知识蒸馏的方法来提高端到端语音翻译 (ST) 模型的性能,通过从文本翻译模型中转移知识来训练 ST 模型。在英法增广 LibriSpeech 和英汉 TED 语料库上的实验结果表明,使用该方法可以对相似和不相似的语言对进行端到端 ST 实现,并且在老师模型的指导下,端到端 ST 模型可以取得 3.5 个 BLEU 分数的显着提升。
Apr, 2019