模块化混合注意力网络用于视频问答

Nov, 2023

模块化混合注意力网络用于视频问答

Modular Blended Attention Network for Video Question Answering

Mingjie Zhou

TL;DR多模态机器学习中的网络结构复杂，通过连接可重用且可组合的神经单元，可以以更直观的方式完成多模态机器学习任务的网络构建，同时通过参数共享大大减少了空间复杂度。

Abstract

In multimodal machine learning tasks, it is due to the complexity of the assignments that the network structure, in most cases, is assembled in a sophisticated way. The holistic architecture can be separated into

multimodal machine learning network structure information representation neural unit parameter sharing

发现论文，激发创造

异构内存增强的多模态注意力模型用于视频问答

本文提出了一种新的端到端可训练的视频问答（VideoQA）框架，包含三个主要组成部分：新的异构内存、重设计的问题内存和新的多模式融合层，其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案，实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。

Apr, 2019

神经模块网络

通过构建和学习神经模块网络，同时利用深度网络的表示能力和问题的组成语言结构，将问题分解成语言子结构，并使用这些结构动态实例化模块化网络，在具有挑战性的视觉问题回答数据集上取得了最先进的结果。

Nov, 2015

利用多任务学习获取多模态视频问答的额外监督

该研究提出通过多任务学习获得额外监督的方法，解决多模态视频问答建立大规模数据集昂贵且现有基准数据集较小的挑战。该方法由多模态视频问答网络、时间检索网络和模态对齐网络组成，通过层次共享中间层同时解决相关的辅助任务提供额外的协同监督，并提出多任务比率调度的方法进行训练。实验结果表明，该方法在公开数据集 TVQA 上实现了最先进的效果。

May, 2019

多模态视频问答的情感转移注意力网络

该论文提出了一种称为模态转移关注网络的模型解决多模式视频问答任务，该模型对任务进行任务分解并使用时间提议网络和异构推理网络进行处理，通过模态转移进行任务的执行，这种模型在 TVQA 基准数据集上的实验结果表明它优于之前的最优性能，达到 71.13％的测试准确率，并开展了广泛的消融研究和定性分析以验证网络的各个组件。

Jul, 2020

多模式统一关注网络用于视觉语言交互

本研究提出了一种统一的注意力模型，能够同时捕捉多模态特征的内部和跨模态之间的相互作用，并输出相应的注意力表示。通过堆叠这样的统一注意力块，我们获得了深度多模态统一注意力网络 (MUAN)，可以无缝地应用于视觉问答 (VQA) 和视觉定位任务。通过在两个 VQA 数据集和三个视觉定位数据集上评估 MUAN 模型，结果表明 MUAN 在两个任务上都实现了顶级性能。

Aug, 2019

从特征和样本的视角重新思考视频问答中的多模态对齐

本论文提出一种基于多模态对齐、轨迹特征、层次化框架和训练数据扩充的视频问答方法，并在 NExT-QA 基准测试上表现出很高的性能。

Apr, 2022

学习组合神经网络用于问题回答

本文介绍一种基于自然语言字符串的问答模型，适用于图像和结构化知识库，通过可组合模块自动组装神经网络，并通过强化学习来学习这些模块的参数，同时只需要（世界、问题、答案）三元组作为监督，我们的方法（称为动态神经模型网络）在视觉和结构化领域的基准数据集上取得了最先进的结果。

Jan, 2016

改进的视觉问答注意力机制

本文提出了一种改进的基于注意力机制的架构，其中包括一个对注意力结果和查询进行关系确定的 AoA 模块，并提出了多模态融合模块来组合视觉和文本信息，结果在 VQA-v2 基准数据集上达到了最先进的性能。

Nov, 2020

多尺度采样的分层多级网络用于视频问答

本研究提出了一种新的多级分层网络（MHN），结合多重时间尺度和深度学习模型的多层次处理能力，通过 Multiscale Sampling 实现逐层交互式的表示学习，从而实现视频问题回答中的视觉推理。

May, 2022

注意力机制：视觉问答架构（VQA）

通过开发十三种新的注意力机制和引入一种简化的分类器，基于首次在 VQA 挑战中获得第一名的模型进行改进，进行了 300 GPU 小时的大量超参数和架构搜索，我们能够实现 64.78％的评估分数，优于现有最先进的单个模型 63.15％的验证分数。

Mar, 2018