一种基于图形的多模态融合编码器在神经机器翻译中的应用
这篇论文介绍了多模态的注意力神经机器翻译模型,并将视觉特征整合在编码器和解码器的不同部分中,利用预训练的卷积神经网络提取全局图像特征,评估了不同策略整合全局图像特征的性能,并研究了添加合成多模态的多语言数据的影响,发现其对多模态模型有积极作用。实验结果表明,该模型在数据集上的性能明显优于同类短语级统计机器翻译模型,并是首次在该数据集上纯神经模型在全部评估指标上明显优于 PBSMT 模型。
Jan, 2017
本研究提出了一种基于多模态机器翻译框架的无监督神经机器翻译方法,通过图像识别加强双向多模态翻译的学习效果,在 Multi30K 数据集上与传统基于文本的神经机器翻译相比,本方法有更好的实验结果。
Nov, 2018
利用多模式图神经网络(MM-GNN)作为一种视觉问答(VQA)方法,通过将图像表示为由三个子图组成的图形,利用场景文本中的各种信息来提高节点特征,从而显著提高需要阅读场景文本的两项 VQA 任务的性能。
Mar, 2020
利用多模态 Transformer 模型并结合多视角视觉特征来进行图像描述,这种方法能够同时捕捉到图像内部和图像与文本之间的关系,相较于业内先前方法显著提升了效果,是图像描述任务的最新成果。
May, 2019
对比于其它多模式机器翻译 (MMT) 方法,我们提出了一种短语级别检索的 MMT 方法,从已有的文本 - 图像数据集中获得源输入的视觉信息,有利于缓解输入限制和数据稀疏的问题,并且通过条件变分自编码器可以更好地过滤多余的视觉信息和仅保留和短语相关的视觉信息。这个方法在多个 MMT 数据集上实验结果表明显著优于强基线模型,尤其是在文本语境有限的情况下。
Mar, 2022
本文提出了一种基于 Flat Multi-modal Interaction Transformer 的多模态命名实体识别方法,通过新颖的相对位置编码匹配不同的模式,以及通过实体边界检测作为辅助任务减轻视觉偏见,实现了对社交媒体帖子中的文本和图片进行 NLP 任务的高效准确识别,取得了业界新的最佳性能表现。
Aug, 2022
本文提出了一种新的神经机器翻译方法,采用层聚合和多层注意力机制,通过引入辅助正则化项促进不同层捕获多样化信息,实验结果表明该方法在 WMT14 英德和 WMT17 中英数据上具有普适性与有效性。
Oct, 2018
该研究提出了一种新颖的神经翻译模型,基于动态图和多模态特征融合,结合手语语言学上的语意信息,以解决其它神经模型中可能存在的语意信息缺失问题。实验表明该模型可以在手语翻译方面取得更好的效果。
Nov, 2022