CVPRDec, 2018
视觉问答的动态融合与内部和外部模态注意流动
Dynamic Fusion with Intra- and Inter- Modality Attention Flow for Visual Question Answering
Gao Peng, Zhengkai Jiang, Haoxuan You, Pan Lu, Steven Hoi...
TL;DR提出了动态融合多模态特征的方法,在视觉和语言模式之间和内部模型之间传递动态信息,从而捕捉语言和视觉领域之间的高级交互作用,显著提高视觉问题回答的效率,同时还提出了关于多模态特征融合的联合训练方法,并使用 VQA 2.0 数据集进行了实验验证,取得了最佳表现。