众包数据中噪音对语音翻译的影响
本文提出了一种基于元学习算法采用模态不可知的多任务模型,将源任务 ASR + MT 的知识转移到目标任务 ST 中,以应对 ST 任务短缺数据的问题,该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。
Nov, 2019
通过应用多任务学习,已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性,并提出了一种改进的多任务学习方法,通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外,当使用额外的数据时,我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。
Nov, 2023
本文提出了一种基于数据扩充的语音翻译方法 M^3ST,通过在词级、句子级和帧级混合训练数据和使用外部机器翻译数据进行模型预训练和微调,再通过并行输入原始语音序列和原始文本序列进行模型微调,使用 Jensen-Shannon 散度对输出进行正则化,成功在 MuST-C 语音翻译基准上取得了优异的表现,平均 BLEU 得分达到 29.9,超越了当前强基线和取得了最新的最好成果。
Dec, 2022
研究了语音翻译中存在的性别偏见问题,并基于英意 / 英法语言方向比较了级联与端到端技术,着重于探究如何利用音频信息来解决自然语言中的性别偏见问题。
Jun, 2020
本文介绍 GigaST 数据集,它是一个大规模的伪语音转换语料库,通过翻译英文 ASR 语料库 GigaSpeech 到德语和中文等加入大量的机器翻译的数据用于训练,最终的 ST 模型在 MuST-C 英语 - 德语基准测试集中获得了最新的最好成果。
Apr, 2022
本文探讨了使用预训练的机器翻译或文本到语音合成模型将弱监督数据转化为语音到翻译对对于 ST 的训练比多任务学习效果更好的问题,展示了只使用弱监督数据即可以获得高质量的终到端 ST 模型,并讨论了避免模型对合成的语音过度拟合的方法。
Nov, 2018
通过使用最简单的筛选技术可以从大量的嘈杂数据集中减少数据量,得到一组更易管理和干净的数据集,并且在多语言到英语语音翻译模型中使用这样的清洁数据集可以显著提高模型性能,平均提升 4.65 个 BLEU 得分。
Feb, 2024
研究了利用多语言文本翻译中零样本翻译技术在语音翻译中的应用,成功地应用数据增强和辅助损失函数技术提升了有限语音翻译数据的效率和准确率。
Jan, 2022
本文提出了一种通过机器学习方法处理低资源语言中语音理解数据的方法,通过多个模型同时对不同扩充的训练数据对彼此提供监督信号,实现了对数据的去噪处理,在两个基准数据集上的实验结果表明,我们的方法优于现有技术达 3.05% 和 4.24% 的性能表现。
Sep, 2021