多模态紧凑双线性池化用于多模态神经机器翻译
本文探讨了利用从大型语言或视觉数据集训练得到的向量表示来建模文本或视觉信息,提出并评价了Multimodal Compact Bilinear pooling (MCB)的表现优于传统的多模态平均池化方法,并通过在视觉问答和定位任务中应用,佐证出MCB的有效性和高表达性。
Jun, 2016
本文将多模态注意力机制应用于图像字幕生成领域,通过在自然语言描述和图像上同时聚焦,实现了一种基于图像字幕的另一种语言描述生成方法,并在Multi30k数据集上取得了更好的效果。
Sep, 2016
本文在多模态翻译任务(英文图片翻译德文)中比较了多种注意力机制,并评估了模型利用图像改进翻译的能力,虽然取得了Multi30k数据集上超越最先进水平的成绩,但我们也发现并报告了机器在翻译时表现出不同的不当行为。
Jul, 2017
开发了一个多模式因式双线性池化(MFB)方法,通过 MFB 方法的融合和对视觉和文本信息的细粒度表示,结合协同注意力机制,在视觉问题回答中达到了最先进的成果。
Aug, 2017
本研究提出了一种基于双线性注意力网络的多模态学习方法,通过提取双线性交互特征来优化多模态输入的注意力分布,以提高视觉问题回答(VQA)和Flickr30k数据集上的性能表现。
May, 2018
我们介绍了一种新颖的多模式机器翻译模型,利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义,并实现共享的视觉-语言嵌入和翻译器的联合优化,取得了在Multi30K和Ambiguous COCO数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上,我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。
Aug, 2018
本文为了提高图像描述任务中的交叉多模态推理(Multi-modal Reasoning)表现,提出了一种新颖的X-Linear注意力块和注意力网络(X-LAN),利用双线性池化策略和指数线性单元(Exponential Linear Unit,ELU),有效消除了注意机制和交互式双线性建模之间的性能差距,实现了对图像和文本高阶内模态和交叉模态信息的提取。同时,在 Transformer 中加入 X-Linear 注意力块,可以进一步提升模型表现。
Mar, 2020
提出了一种多模式神经机器翻译方法,即多模式同时翻译 (MSNMT),能够在翻译过程中利用视频信息和实现实时多语言理解。实验证实,该方法可显著提高翻译效率,特别是在低延迟情况下,比单纯文本的模型更加优秀。此外,我们通过对 MSNMT 的对抗性评估研究发现了视频信息在解码过程中的重要性,并分析了源语言和目标语言之间不同的单词顺序对翻译结果的影响。
Apr, 2020
本文提出基于Transformer的多模式机器翻译(MMT)与视觉注意力机制相结合的模型,并使用带标签的短语-区域对齐的辅助信号指导其视觉注意力机制,实现目前最佳BLEU和METEOR分数的提升。
Jan, 2022