视觉感知下的翻译精炼
本文中,我们研究了多模式机器翻译(MMT)中视觉模态的贡献,通过分析证明,即使在有限的文本和文本上下文的情况下,模型也能够利用视觉输入来生成更好的翻译结果。
Mar, 2019
本文旨在从信息论角度提高多模式机器翻译的视觉感知能力,通过将信息量化为源特定信息和目标特定信息,并提出两种目标优化方法以更好地利用视觉信号来解决输入退化的问题。实验结果表明,我们的方法可以显著提高 MMT 模型的视觉感知能力,并在两个数据集上取得了优秀的结果。
Oct, 2022
本文研究了多模式翻译任务的两个子任务:学习翻译和学习视觉有关表征,并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现,这种方法在 Multi30K 数据集上比基准表现要好,即使在外部 MS COCO 数据集进行训练也同样有效,而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。
May, 2017
本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像,以加强神经机器翻译的性能。在多个数据集上进行的实验证明,该方法较强的基线实现了显著的性能提升。
Jul, 2022
本文研究了多模式机器翻译(MMT)系统在存在视觉上下文时比纯文本神经机器翻译(NMT)系统表现更好,并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性,表明 MMT 架构相关的有效研究目前受到合适数据集的限制,未来的 MMT 数据集必须经过仔细考虑。
Sep, 2021
近期在多模式机器翻译(MMT)领域的研究表明,视觉模态在翻译效果方面要么可有可无,要么只提供了边缘化优势。然而,这些结论大多来自于对有限的双语句子 - 图像配对数据集(如 Multi30k)的实验结果分析,而这类数据集中,一个双语平行句对的内容必须由手工标注的图像很好地表达,这与真实的翻译场景不同。在这项工作中,我们遵循了唐等人(2022 年)提出的通用多模式机器翻译框架。这种方法使我们能够通过利用真实世界的翻译数据集,深入研究视觉模态对翻译效果的影响。通过全面的探索性任务,我们发现视觉模态对大多数真实翻译数据集具有优势。值得注意的是,翻译性能主要取决于文本和视觉内容之间的对齐和一致性。此外,我们的结果表明,视觉信息在多模式翻译中发挥了补充作用,可以被替代。
Apr, 2024
本研究提出了视觉协议规范化训练的方法,通过引入简单而有效的多头协同注意模型,同时训练源到目标和目标到源的翻译模型,鼓励它们在生成语义等效的视觉词汇时共享相同的视觉信息。结果表明,该方法在 Multi30k 数据集上的性能优于竞争基线,并且进一步分析证明,提出的规范化训练能够有效地提高注意力在图像上的一致性,从而更好地利用视觉信息。
Dec, 2019
该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法,同时还发布了 CoMMuTE 数据集,并在该数据集上取得了显著的性能提升。
Dec, 2022
我们介绍了一种新颖的多模式机器翻译模型,利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义,并实现共享的视觉 - 语言嵌入和翻译器的联合优化,取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上,我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。
Aug, 2018