3AM: 一个模糊感知的多模式机器翻译数据集
该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法,同时还发布了 CoMMuTE 数据集,并在该数据集上取得了显著的性能提升。
Dec, 2022
通过提出一个新的方法和新的数据集,本文致力于提高多模式机器翻译的翻译质量并解决了只能利用少量数据和当前的基准相对较为受限约束的问题,结果表明我们的方法更适合实际场景并显著提高了翻译性能。
Dec, 2022
本文研究了多模式机器翻译(MMT)系统在存在视觉上下文时比纯文本神经机器翻译(NMT)系统表现更好,并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性,表明 MMT 架构相关的有效研究目前受到合适数据集的限制,未来的 MMT 数据集必须经过仔细考虑。
Sep, 2021
本研究论文通过深入研究多模式机器翻译(MMT),探讨了 MMT 系统在源文本完整时对视觉信息的敏感性降低的现象,并提出了一种新的方法来生成并行的视觉问答(VQA)风格对,以促进更强大的跨模态交互。使用大型语言模型(LLMs),将 MMT 中的探测信号显式建模为 VQA 风格数据,创建了 Multi30K-VQA 数据集,并引入了 MMT-VQA 多任务学习框架,将来自数据集的显式探测信号纳入 MMT 训练过程。在两个广泛使用的基准测试中验证了该新方法的有效性。本文提供的代码和数据可在 https://github.com/libeineu/MMT-VQA 获取。
Oct, 2023
本研究提出了一种基于多模态机器翻译框架的无监督神经机器翻译方法,通过图像识别加强双向多模态翻译的学习效果,在 Multi30K 数据集上与传统基于文本的神经机器翻译相比,本方法有更好的实验结果。
Nov, 2018
本文介绍了 M3T,这是一个新颖的基准数据集,旨在评估 NMT 系统在翻译半结构化文档的全面任务上的表现,并解决了现实世界应用中丰富文本布局所带来的挑战。
Jun, 2024
本文提出了跨多种语言的多模式机器翻译 (Multilingual MMT) 任务,通过提供多语言的共享语义空间来解决为每对语言训练单独模型的高昂成本问题;通过建立两个新的多语言 MMT 基准数据集,并提出了一种基于视觉提示的有效基准模型 LVP-M3,该模型包括三个阶段(token 编码、语言感知的视觉提示生成和语言翻译),实验结果表明该方法在多语言 MMT 中的有效性。
Oct, 2022
对比于其它多模式机器翻译 (MMT) 方法,我们提出了一种短语级别检索的 MMT 方法,从已有的文本 - 图像数据集中获得源输入的视觉信息,有利于缓解输入限制和数据稀疏的问题,并且通过条件变分自编码器可以更好地过滤多余的视觉信息和仅保留和短语相关的视觉信息。这个方法在多个 MMT 数据集上实验结果表明显著优于强基线模型,尤其是在文本语境有限的情况下。
Mar, 2022
本文旨在从信息论角度提高多模式机器翻译的视觉感知能力,通过将信息量化为源特定信息和目标特定信息,并提出两种目标优化方法以更好地利用视觉信号来解决输入退化的问题。实验结果表明,我们的方法可以显著提高 MMT 模型的视觉感知能力,并在两个数据集上取得了优秀的结果。
Oct, 2022