CVPRDec, 2018

视觉问答的动态融合与内部和外部模态注意流动

TL;DR提出了动态融合多模态特征的方法,在视觉和语言模式之间和内部模型之间传递动态信息,从而捕捉语言和视觉领域之间的高级交互作用,显著提高视觉问题回答的效率,同时还提出了关于多模态特征融合的联合训练方法,并使用 VQA 2.0 数据集进行了实验验证,取得了最佳表现。