视频辅助多模态机器翻译
本研究提出了一个大规模的视频字幕翻译数据集 BigVideo,用于促进多模态机器翻译的研究;在跨模态编码器中引入了对比学习方法,结果表明视觉信息能够显著提高 NMT 模型的性能并帮助消除歧义。
May, 2023
介绍了一个新的 VISA 数据集,包含 40k 个日英平行句子和对应的视频片段,特点是源字幕模糊且分为多义和省略两类,证明其对最新的多模态机器翻译系统很有挑战性,可促进 MMT 研究。
Jan, 2022
通过引入 3AM 数据集,本文提出了一种新的解决方案来改善多模态机器翻译中存在的视觉信息不足的问题,并通过提供更具含糊性和更多种类的数据集,实现了对现有多模态机器翻译数据集更好的训练效果,进一步促进了多模态学习领域的研究和探索。
Apr, 2024
该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法,同时还发布了 CoMMuTE 数据集,并在该数据集上取得了显著的性能提升。
Dec, 2022
通过提出一个新的方法和新的数据集,本文致力于提高多模式机器翻译的翻译质量并解决了只能利用少量数据和当前的基准相对较为受限约束的问题,结果表明我们的方法更适合实际场景并显著提高了翻译性能。
Dec, 2022
本文研究了多模式机器翻译(MMT)系统在存在视觉上下文时比纯文本神经机器翻译(NMT)系统表现更好,并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性,表明 MMT 架构相关的有效研究目前受到合适数据集的限制,未来的 MMT 数据集必须经过仔细考虑。
Sep, 2021
本文旨在将音视频问答(AVQA)扩展到多语言环境。我们利用机器翻译提出了两个多语言 AVQA 数据集,涵盖了八种语言,并引入了 MERA 框架,该框架利用了先进的视频、音频和文本基础模型来进行多语言 AVQA 的基准测试。我们相信这项工作将开辟新的研究方向,并为未来的多语言 AVQA 提供参考基准。
Jun, 2024
本文介绍了在大规模多模式视频数据集上的自我监督学习的发展;提出了一种基于生成模型的方法,以翻译问题的形式解决了这一问题,并将其应用于多种下游视频理解任务中。结果表明,本方法在性能上优于基于对比度度量学习的方法。
Jun, 2020
本研究探讨如何利用视觉内容实现无监督多模态机器翻译领域的降歧和提升潜空间的对齐度。该模型采用多模态反向翻译,具备伪视觉枢轴功能,实现了多语言视觉 - 语义嵌入空间学习和视觉轴描述补充弱监督。实验证明该模型显著超越了最先进的方法,并能在测试时很好地进行泛化。
May, 2020