本文研究对于 ST 和 MT 之间的通道差,提出了一种名为 Cress 的跨模态规范化方法。通过输出 ST 和 MT 的预测值,使用采样和不同训练权重来处理难以处理的情况,实现了在 MuST-C 数据集的八个方向上取得了显著效果。
May, 2023
本文提出了一种基于元学习算法采用模态不可知的多任务模型,将源任务 ASR + MT 的知识转移到目标任务 ST 中,以应对 ST 任务短缺数据的问题,该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。
Nov, 2019
该研究提出了 FST 跨模态模型,支持语音、文本和语音文本融合三种不同类型的输入模态进行翻译,技术包括多模态对齐等方法,实验结果表明该模型在多项测试中比传统方法有显著提升,尤其是在语音翻译领域。
本研究提出一种新型基于 Transformer 的 M-Adapter 方法,通过建模语音序列的全局和局部依赖关系,将语音表示特征适应到文字输入上,以缩小语音输出和文字输入之间的模态差距,从而提高端到端语音到文本翻译的质量,并在 Must-C En→DE 数据集上获得比强基准模型高达 1 BLEU 得分的表现。
Jul, 2022
本文提出了一种基于知识蒸馏的方法来提高端到端语音翻译 (ST) 模型的性能,通过从文本翻译模型中转移知识来训练 ST 模型。在英法增广 LibriSpeech 和英汉 TED 语料库上的实验结果表明,使用该方法可以对相似和不相似的语言对进行端到端 ST 实现,并且在老师模型的指导下,端到端 ST 模型可以取得 3.5 个 BLEU 分数的显着提升。
Apr, 2019
提出了一种基于 Cross Speech-Text(XSTNet)网络的用于语音翻译的端到端模型,采用自监督预训练子网络作为音频编码器、多任务训练目标以及渐进式训练策略,并在 MuST-C En-X 和 LibriSpeech En-Fr 数据集上取得了最新的最佳效果,平均 BLEU 值为 28.8,优于之前的最佳方法 3.2 BLEU。
Apr, 2021
本文提出了一种新的交互式注意机制,使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行,实验表明,该模型在语音翻译和语音识别方面的性能表现均优于基线模型。
Dec, 2019
语音到文本翻译中的端到端模型的综述,包括模型、评估指标和数据集,提供了挑战和未来研究方向的新见解。
Dec, 2023
本研究提出了 LST,一个大型多模型,旨在优化端到端语音翻译任务的性能并创造新的技术水平。在 MuST-C 语音翻译基准测试中,LST-13B 取得了 30.39/41.55/35.33 的 BLEU 分数,超过了之前的模型并树立了新的最新技术水平。此外,还进行了单模型选择和训练策略对结果的影响的深入分析,为未来的研究奠定了基础。
Oct, 2023
本文提出了一种简单且有效的多语言端到端语音翻译框架,并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。
Oct, 2019