本文旨在从信息论角度提高多模式机器翻译的视觉感知能力,通过将信息量化为源特定信息和目标特定信息,并提出两种目标优化方法以更好地利用视觉信号来解决输入退化的问题。实验结果表明,我们的方法可以显著提高 MMT 模型的视觉感知能力,并在两个数据集上取得了优秀的结果。
Oct, 2022
本文提出基于 Transformer 的多模式机器翻译 (MMT) 与视觉注意力机制相结合的模型,并使用带标签的短语 - 区域对齐的辅助信号指导其视觉注意力机制,实现目前最佳 BLEU 和 METEOR 分数的提升。
Jan, 2022
本文在多模态翻译任务(英文图片翻译德文)中比较了多种注意力机制,并评估了模型利用图像改进翻译的能力,虽然取得了 Multi30k 数据集上超越最先进水平的成绩,但我们也发现并报告了机器在翻译时表现出不同的不当行为。
Jul, 2017
本文探究了视觉模型对多模态机器翻译(MMT)的影响,使用了如 Transformer 等强大的模型和增强功能来实验,并开发了一种选择性注意力模型来研究图像在 MMT 中的补丁级贡献。研究结果表明,强大的视觉模型有助于学习从视觉模态进行翻译,同时也建议在当前基准测试规模小且有偏差时,需要仔细研究 MMT 模型。
Mar, 2022
本文将多模态注意力机制应用于图像字幕生成领域,通过在自然语言描述和图像上同时聚焦,实现了一种基于图像字幕的另一种语言描述生成方法,并在 Multi30k 数据集上取得了更好的效果。
Sep, 2016
该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法,同时还发布了 CoMMuTE 数据集,并在该数据集上取得了显著的性能提升。
Dec, 2022
这篇论文介绍了多模态的注意力神经机器翻译模型,并将视觉特征整合在编码器和解码器的不同部分中,利用预训练的卷积神经网络提取全局图像特征,评估了不同策略整合全局图像特征的性能,并研究了添加合成多模态的多语言数据的影响,发现其对多模态模型有积极作用。实验结果表明,该模型在数据集上的性能明显优于同类短语级统计机器翻译模型,并是首次在该数据集上纯神经模型在全部评估指标上明显优于 PBSMT 模型。
Jan, 2017
本文研究了多模式机器翻译(MMT)系统在存在视觉上下文时比纯文本神经机器翻译(NMT)系统表现更好,并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性,表明 MMT 架构相关的有效研究目前受到合适数据集的限制,未来的 MMT 数据集必须经过仔细考虑。
Sep, 2021
通过设计可解释的多模态翻译模型,我们发现多模态信息对于机器翻译的提升并不显著,相反是由于正则化效应带来的,这一发现强调了可解释性在未来研究中的重要性及其作用。
May, 2021
我们介绍了一种新颖的多模式机器翻译模型,利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义,并实现共享的视觉 - 语言嵌入和翻译器的联合优化,取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上,我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。
Aug, 2018