MUTAN: 视觉问答的多模态 Tucker 融合

May, 2017

MUTAN: 视觉问答的多模态 Tucker 融合

MUTAN: Multimodal Tucker Fusion for Visual Question Answering

Hedi Ben-younes, Rémi Cadene, Matthieu Cord, Nicolas Thome

TL;DR本研究介绍了一种名为 MUTAN 的多模态张量分解方法，它可以有效地参数化视觉和文本表示之间的双线性交互作用，并引入低秩矩阵分解以限制交互秩。实验结果表明，该方法在视觉问答任务中具有较高的准确性。

Abstract

bilinear models provide an appealing framework for mixing and merging information in visual question answering (VQA) tasks. They help to learn high level associations between question meaning and visual concepts

bilinear models visual question answering mutan tucker decomposition multimodal tensor

发现论文，激发创造

视觉问答的紧凑三线性交互

提出了一种新型的三线性交互模型，采用了多模张量分解和知识蒸馏技术，实现了在视觉问答领域中的最先进结果。

Sep, 2019

Bilinear 超对角线融合在视觉问答与视觉关系检测中的应用

该研究着眼于多模态表征学习中的问题，提出一种基于块超对角张量分解的多模态融合模型 BLOCK，该模型比传统双线性模型具有更好的表达能力和效率，在视觉问答等任务中表现出了优异的结果。

Jan, 2019

多模式因式双线性池化与 Co-Attention 学习在视觉问答中的应用

开发了一个多模式因式双线性池化（MFB）方法，通过 MFB 方法的融合和对视觉和文本信息的细粒度表示，结合协同注意力机制，在视觉问题回答中达到了最先进的成果。

Aug, 2017

使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA

本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型，采用自我注意力机制进行不同模态的融合，并通过动态指针网络进行迭代式答案解码，相比于现有方法大幅度提高了 TextVQA 任务的性能。

Nov, 2019

超越双线性：面向视觉问答的广义多模态分解高阶池化

本文利用深度神经网络中的协同注意机制与通用的多模式高阶因式化池化方法实现多模态特征的融合，使用 KL（Kullback-Leibler）散度作为损失函数，最终实现了优越的视觉问答表现。

Aug, 2017

MMFT-BERT：基于 BERT 编码的多模态融合转换器用于视觉问答

MMFT-BERT 是一种多模态融合 Transformer 网络，利用 BERT 编码技术在视频和文本上进行数据处理，并通过新型的 Transformer 融合方法实现多模态输入的组合，该方法在 TVQA 数据集上取得了 SOTA 结果。

Oct, 2020

视觉问答的多模态潜在交互网络

该研究提出了一种多模态潜在交互模块（MLI），用于学习图像问题答案中潜在的视觉和语言信息之间的跨模态关系，从而最大化地汇总了两种信息来源，并且与预训练语言模型 BERT 结合可以显着提高性能，达到了竞争性的结果。

Aug, 2019

多模态紧凑双线性池化用于视觉问答和视觉定位

本文探讨了利用从大型语言或视觉数据集训练得到的向量表示来建模文本或视觉信息，提出并评价了 Multimodal Compact Bilinear pooling (MCB) 的表现优于传统的多模态平均池化方法，并通过在视觉问答和定位任务中应用，佐证出 MCB 的有效性和高表达性。

Jun, 2016

初探：通过视觉和文本解释实现可解释的 TextVQA 模型

该论文提出了一种可解释的深度学习模型 - MTXNet，着重于图像中的文本的多模态解释生成，并使用包含视觉信息和多种文本解释的新颖数据集 TextVQA-X 进行训练和评估，显示出该多模态解释与人类解释一致，有助于为模型的决策提供有用的见解。该模型解释效果的得分在 CIDEr 方面优于单模态模型至多 7％，在 IoU 方面优于单模态模型至多 2％。

Apr, 2021

MultiModalQA: 文本、表格和图像的复杂问答

本文介绍了一个名为 “MultiModalQA (MMQA)” 的数据集，该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题，并演示了多模态多跳方法在解决这一任务中的必要性。

Apr, 2021