具有金字塔式多模态变换器的高效端到端视频问答

AAAIFeb, 2023

具有金字塔式多模态变换器的高效端到端视频问答

Efficient End-to-End Video Question Answering with Pyramidal Multimodal Transformer

Min Peng, Chongyang Wang, Yu Shi, Xiang-Dong Zhou

TL;DR本文提出了一种新的端到端视频问答方法，使用金字塔多模态变换器（PMT）模型实现视频语言交互，通过使用异性金字塔在不同的时空尺度上实现跨视频语言交互，并在保持本地和全局语义完整性的同时，将视频特征流分解为空间和时间子流，并实现它们与语义的交互，并结合可重用的预训练权重的特征提取器，在 5 个视频问答基准测试中实现更好或同等的性能。

Abstract

This paper presents a new method for end-to-end video question answering (VideoQA), aside from the current popularity of using large-scale pre-training with huge feature extractors. We achieve this with a pyramidal multimodal transformer (PMT) model, which simply incorporates a learnab

video question answering multimodal transformer model anisotropic pyramid spatio-temporal interactions text-to-video retrieval

发现论文，激发创造

视频问答的时域金字塔变换器和多模态交互

本文提出了一种基于时域金字塔变换器的多模交互模型，用于视频问答，实现了问题语义的建立和视频信息的推断，并在三个视频问答数据集上通过了广泛的实验证明了该方法相较于现有技术的卓越表现。

Sep, 2021

多尺度采样的分层多级网络用于视频问答

本研究提出了一种新的多级分层网络（MHN），结合多重时间尺度和深度学习模型的多层次处理能力，通过 Multiscale Sampling 实现逐层交互式的表示学习，从而实现视频问题回答中的视觉推理。

May, 2022

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020

异构内存增强的多模态注意力模型用于视频问答

本文提出了一种新的端到端可训练的视频问答（VideoQA）框架，包含三个主要组成部分：新的异构内存、重设计的问题内存和新的多模式融合层，其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案，实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。

Apr, 2019

使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA

本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型，采用自我注意力机制进行不同模态的融合，并通过动态指针网络进行迭代式答案解码，相比于现有方法大幅度提高了 TextVQA 任务的性能。

Nov, 2019

MM-Pyramid: 多模塔形注意力网络用于音视频事件定位和视频解析

提出了一种名为 MM-Pyramid 的多模式金字塔式注意力网络，该网络使用注意力特征金字塔模块和语义融合模块，以实现视频中事件的识别和定位。

Nov, 2021

用于端到端视频对话系统的多模态 Transformer 网络

本研究提出了一种使用多模态转换网络（MTN）来编码和整合不同模态信息的视频对话系统。在对话生成过程中，我们提出了一个训练程序来模拟标记级解码，从而提高了生成响应的质量。我们在 DSTC7 上获得了最优秀的表现，并且我们的模型具有很好的泛化性能。

Jul, 2019

利用多任务学习获取多模态视频问答的额外监督

该研究提出通过多任务学习获得额外监督的方法，解决多模态视频问答建立大规模数据集昂贵且现有基准数据集较小的挑战。该方法由多模态视频问答网络、时间检索网络和模态对齐网络组成，通过层次共享中间层同时解决相关的辅助任务提供额外的协同监督，并提出多任务比率调度的方法进行训练。实验结果表明，该方法在公开数据集 TVQA 上实现了最先进的效果。

May, 2019

视频问题回答的视频图变换器

该研究论文提出了一种名为 VGT 的视频图形转换器模型，旨在解决视频问答任务中动态关系推理方面的挑战，其独特性在于利用动态图形变换器模块对视频进行编码，并利用分离的视频和文本变换器来执行问答任务。通过充分的分析和启发性的观察，证明了 VGT 的有效性和优越性，并揭示了其可用于更数据有效的预训练。

Jul, 2022

从特征和样本的视角重新思考视频问答中的多模态对齐

本论文提出一种基于多模态对齐、轨迹特征、层次化框架和训练数据扩充的视频问答方法，并在 NExT-QA 基准测试上表现出很高的性能。

Apr, 2022