多模态紧凑双线性池化用于视觉问答和视觉定位

EMNLPJun, 2016

多模态紧凑双线性池化用于视觉问答和视觉定位

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

Akira Fukui, Dong Huk Park, Daylen Yang, Anna Rohrbach, Trevor Darrell...

TL;DR本文探讨了利用从大型语言或视觉数据集训练得到的向量表示来建模文本或视觉信息，提出并评价了 Multimodal Compact Bilinear pooling (MCB) 的表现优于传统的多模态平均池化方法，并通过在视觉问答和定位任务中应用，佐证出 MCB 的有效性和高表达性。

Abstract

Modeling textual or visual information with vector representations trained from large language or visual datasets has been successfully explored in recent years. However, tasks such as visual question answering r

multimodal pooling vector representations visual question answering mcb expressiveness

发现论文，激发创造

多模式因式双线性池化与 Co-Attention 学习在视觉问答中的应用

开发了一个多模式因式双线性池化（MFB）方法，通过 MFB 方法的融合和对视觉和文本信息的细粒度表示，结合协同注意力机制，在视觉问题回答中达到了最先进的成果。

Aug, 2017

多模态紧凑双线性池化用于多模态神经机器翻译

本文探讨了在多模态翻译中使用复合双线性池化方法的效果，通过将两种注意力特征进行外积组合，相比于基本的组合方法，其对于图像字幕翻译的表现有所提升。

Mar, 2017

超越双线性：面向视觉问答的广义多模态分解高阶池化

本文利用深度神经网络中的协同注意机制与通用的多模式高阶因式化池化方法实现多模态特征的融合，使用 KL（Kullback-Leibler）散度作为损失函数，最终实现了优越的视觉问答表现。

Aug, 2017

视觉问答的多模态潜在交互网络

该研究提出了一种多模态潜在交互模块（MLI），用于学习图像问题答案中潜在的视觉和语言信息之间的跨模态关系，从而最大化地汇总了两种信息来源，并且与预训练语言模型 BERT 结合可以显着提高性能，达到了竞争性的结果。

Aug, 2019

视觉问答的紧凑三线性交互

提出了一种新型的三线性交互模型，采用了多模张量分解和知识蒸馏技术，实现了在视觉问答领域中的最先进结果。

Sep, 2019

低秩双线性池化的哈达玛积

该研究提出了一种低秩双线性池化的方法以提高多模式学习的效率，并在可视化问答任务中取得了优异的结果，具有更好的经济性特性。

Oct, 2016

视觉问答算法分析

本文分析了现有的视觉问答（VQA）算法，并使用一个新数据集进行了评估，提出了新的评估方案来补偿过度展示的问题类型，并研究了不同算法的优缺点和注意力机制的作用。

Mar, 2017

双线性注意力网络

本研究提出了一种基于双线性注意力网络的多模态学习方法，通过提取双线性交互特征来优化多模态输入的注意力分布，以提高视觉问题回答（VQA）和 Flickr30k 数据集上的性能表现。

May, 2018

大规模视频分类中多模态融合的良好实践

通过多模数据融合与双线性池化结合，实现音视频表达融合，在视频分类等大规模多媒体处理上显著优于简单融合方法，并在 Youtube-8M v2 数据集上进行了验证。

Sep, 2018

使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA

本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型，采用自我注意力机制进行不同模态的融合，并通过动态指针网络进行迭代式答案解码，相比于现有方法大幅度提高了 TextVQA 任务的性能。

Nov, 2019