一种基于图形的多模态融合编码器在神经机器翻译中的应用

Jul, 2020

一种基于图形的多模态融合编码器在神经机器翻译中的应用

A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine Translation

Yongjing Yin, Fandong Meng, Jinsong Su, Chulun Zhou, Zhengyuan Yang...

TL;DR本论文提出了一种新型的基于图的多模态融合编码器，用于多模态神经机器翻译（NMT）中利用不同模态语义单元之间的细粒度语义对应关系，以优化多模态表示学习，并在 Multi30K 数据集上验证了模型的卓越性能。

Abstract

multi-modal neural machine translation (NMT) aims to translate source sentences into a target language paired with images. However, dominant multi-modal NMT models do not fully exploit fine-grained semantic correspondences between →

multi-modal neural machine translation graph-based multi-modal fusion encoder multi30k datasets attention-based context vector semantic units

发现论文，激发创造

将全局视觉特征合并到基于注意力的神经机器翻译中

这篇论文介绍了多模态的注意力神经机器翻译模型，并将视觉特征整合在编码器和解码器的不同部分中，利用预训练的卷积神经网络提取全局图像特征，评估了不同策略整合全局图像特征的性能，并研究了添加合成多模态的多语言数据的影响，发现其对多模态模型有积极作用。实验结果表明，该模型在数据集上的性能明显优于同类短语级统计机器翻译模型，并是首次在该数据集上纯神经模型在全部评估指标上明显优于 PBSMT 模型。

Jan, 2017

无监督多模态神经机器翻译

本研究提出了一种基于多模态机器翻译框架的无监督神经机器翻译方法，通过图像识别加强双向多模态翻译的学习效果，在 Multi30K 数据集上与传统基于文本的神经机器翻译相比，本方法有更好的实验结果。

Nov, 2018

多模态图神经网络用于视觉场景联合推理

利用多模式图神经网络（MM-GNN）作为一种视觉问答（VQA）方法，通过将图像表示为由三个子图组成的图形，利用场景文本中的各种信息来提高节点特征，从而显著提高需要阅读场景文本的两项 VQA 任务的性能。

Mar, 2020

基于多视角视觉表示的多模态变压器用于图像字幕生成

利用多模态 Transformer 模型并结合多视角视觉特征来进行图像描述，这种方法能够同时捕捉到图像内部和图像与文本之间的关系，相较于业内先前方法显著提升了效果，是图像描述任务的最新成果。

May, 2019

多模态机器翻译及嵌入预测

本研究将预训练的词向量与搜索方法相结合，以解决多模态机器翻译中罕见词汇的翻译问题，并通过实验表明，这种方法能够改进机器翻译的性能。

Apr, 2019

基于短语级通用视觉表征的神经机器翻译

对比于其它多模式机器翻译 (MMT) 方法，我们提出了一种短语级别检索的 MMT 方法，从已有的文本 - 图像数据集中获得源输入的视觉信息，有利于缓解输入限制和数据稀疏的问题，并且通过条件变分自编码器可以更好地过滤多余的视觉信息和仅保留和短语相关的视觉信息。这个方法在多个 MMT 数据集上实验结果表明显著优于强基线模型，尤其是在文本语境有限的情况下。

Mar, 2022

命名实体识别的平面多模互动变压器

本文提出了一种基于 Flat Multi-modal Interaction Transformer 的多模态命名实体识别方法，通过新颖的相对位置编码匹配不同的模式，以及通过实体边界检测作为辅助任务减轻视觉偏见，实现了对社交媒体帖子中的文本和图片进行 NLP 任务的高效准确识别，取得了业界新的最佳性能表现。

Aug, 2022

利用深度表示进行神经机器翻译

本文提出了一种新的神经机器翻译方法，采用层聚合和多层注意力机制，通过引入辅助正则化项促进不同层捕获多样化信息，实验结果表明该方法在 WMT14 英德和 WMT17 中英数据上具有普适性与有效性。

Oct, 2018

基于图模型的跨模态信息融合技术在神经手语翻译中的应用

该研究提出了一种新颖的神经翻译模型，基于动态图和多模态特征融合，结合手语语言学上的语意信息，以解决其它神经模型中可能存在的语意信息缺失问题。实验表明该模型可以在手语翻译方面取得更好的效果。

Nov, 2022

通过丰富视觉特征和视觉驱动的词向量提升多模态神经机器翻译

本文探讨了在多模态神经机器翻译 (MNMT) 中使用密集标注模型进行视觉特征提取和词嵌入，以提高图像描述翻译模型的效果。

Jul, 2017