为纯文本翻译模型添加多模态功能

Mar, 2024

为纯文本翻译模型添加多模态功能

Adding Multimodal Capabilities to a Text-only Translation Model

Vipin Vijayan, Braeden Bowen, Scott Grigsby, Timothy Anderson, Jeremy Gwinnup

TL;DR对于目前的多模式机器翻译 (MMT) 工作来说，使用 Multi30k 数据集进行训练和评估导致模型过拟合到极高程度，从而在针对典型的纯文本测试集（如 WMT newstest 数据集）时表现非常差。为了在 Multi30k 和纯文本数据集上都表现出色，本文基于高效纯文本机器翻译 (MT) 模型作为 MMT 模型的起点，并通过使用视觉 - 文本适配器层和门控机制将 MT 模型逐步转换为 MMT 模型，通过 1) 使用基于视觉的源文本遮蔽进行预训练和 2) 在 Multi30k 上进行微调。

Abstract

While most current work in multimodal machine translation (MMT) uses the multi30k dataset for training and evaluation, we find that the resulting models overfit to the →

multimodal machine translation multi30k dataset overfitting text-only machine translation vision-text adapter layers

发现论文，激发创造

对文本数据集评估多模态翻译模型的理由

提出了一个评估框架，用于评估多模式机器翻译模型在利用视觉信息辅助翻译任务和翻译复杂句子方面的能力，并通过使用 CoMMuTE 评估框架、WMT 新闻翻译任务测试集和 Multi30k 测试集来评估多模式机器翻译模型的性能，发现这些模型在面对纯文本翻译时表现下降。

Mar, 2024

超越三元组：利用最多数据进行多模态机器翻译

通过提出一个新的方法和新的数据集，本文致力于提高多模式机器翻译的翻译质量并解决了只能利用少量数据和当前的基准相对较为受限约束的问题，结果表明我们的方法更适合实际场景并显著提高了翻译性能。

Dec, 2022

多模式机器翻译模型的合理性检查：关注视觉确保准确性

本文研究了多模式机器翻译（MMT）系统在存在视觉上下文时比纯文本神经机器翻译（NMT）系统表现更好，并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性，表明 MMT 架构相关的有效研究目前受到合适数据集的限制，未来的 MMT 数据集必须经过仔细考虑。

Sep, 2021

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

关于多模式机器翻译的视觉特征

本文探究了视觉模型对多模态机器翻译（MMT）的影响，使用了如 Transformer 等强大的模型和增强功能来实验，并开发了一种选择性注意力模型来研究图像在 MMT 中的补丁级贡献。研究结果表明，强大的视觉模型有助于学习从视觉模态进行翻译，同时也建议在当前基准测试规模小且有偏差时，需要仔细研究 MMT 模型。

Mar, 2022

多模机器翻译中视觉语境需要的经验证实

通过设计可解释的多模态翻译模型，我们发现多模态信息对于机器翻译的提升并不显著，相反是由于正则化效应带来的，这一发现强调了可解释性在未来研究中的重要性及其作用。

May, 2021

从信息论的角度增强多模态神经机器翻译的视觉意识

本文旨在从信息论角度提高多模式机器翻译的视觉感知能力，通过将信息量化为源特定信息和目标特定信息，并提出两种目标优化方法以更好地利用视觉信号来解决输入退化的问题。实验结果表明，我们的方法可以显著提高 MMT 模型的视觉感知能力，并在两个数据集上取得了优秀的结果。

Oct, 2022

多模态机器翻译中视觉上下文的必要性探究

本文中，我们研究了多模式机器翻译（MMT）中视觉模态的贡献，通过分析证明，即使在有限的文本和文本上下文的情况下，模型也能够利用视觉输入来生成更好的翻译结果。

Mar, 2019

基于伪可视中心词的无监督多模态神经机器翻译

本研究探讨如何利用视觉内容实现无监督多模态机器翻译领域的降歧和提升潜空间的对齐度。该模型采用多模态反向翻译，具备伪视觉枢轴功能，实现了多语言视觉 - 语义嵌入空间学习和视觉轴描述补充弱监督。实验证明该模型显著超越了最先进的方法，并能在测试时很好地进行泛化。

May, 2020

利用图像解决歧义问题：改进的多模态机器翻译和对比评估

该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法，同时还发布了 CoMMuTE 数据集，并在该数据集上取得了显著的性能提升。

Dec, 2022