从特征和样本的视角重新思考视频问答中的多模态对齐
该研究提出通过多任务学习获得额外监督的方法,解决多模态视频问答建立大规模数据集昂贵且现有基准数据集较小的挑战。该方法由多模态视频问答网络、时间检索网络和模态对齐网络组成,通过层次共享中间层同时解决相关的辅助任务提供额外的协同监督,并提出多任务比率调度的方法进行训练。实验结果表明,该方法在公开数据集TVQA上实现了最先进的效果。
May, 2019
本文提出了一种将视频建模为条件分层图层次结构的方法,通过组合不同层次的视觉元素来对齐语言查询中的多粒度语义概念,该方法超越了先前方法的表现,且对于不同类型的问题也具有更好的泛化能力。
Dec, 2021
本文提出了一种结构化的双流注意力网络(STA)来解决视频问答(VQA),该网络可以识别视频中的长时空结构和文本特征,并将视觉与文本融合以提供准确的答案,在大规模视频QA数据集TGIF-QA上实验表明,STA可将Action,Trans,TrameQA和Count任务的最佳效果提高13.0%,13.5%,11.0%和0.3%,在Action,Trans,TrameQA任务上也比最佳竞争对手提高4.1%,4.7%和5.1%。
Jun, 2022
该研究论文提出了一种名为VGT的视频图形转换器模型,旨在解决视频问答任务中动态关系推理方面的挑战,其独特性在于利用动态图形变换器模块对视频进行编码,并利用分离的视频和文本变换器来执行问答任务。通过充分的分析和启发性的观察,证明了VGT的有效性和优越性,并揭示了其可用于更数据有效的预训练。
Jul, 2022
视频问答是回答关于视频的自然语言问题的任务。本文提出了一种自我解释的框架EIGV,通过同时强制性地处理问题关键线索和忽略问题不相关的信息,将问题的答案与环境信息区分开来,明确呈现出视频和语言之间的相互作用,并且在三个基准数据集上进行的广泛实验证明了EIGV的优越性。
Jul, 2022
最近,基于语言模型的视频理解取得了令人瞩目的进展,这得益于大型语言模型(LLMs)的引入。然而,以往的研究重点主要集中在设计将视频特征映射到标记的投影层,这种方法既基础又低效。在我们的研究中,我们引入了一个最先进的框架VaQuitA,旨在提高视频和文本信息之间的协同作用。在数据层面上,我们采用由CLIP分数排名引导的采样方法,而不是均匀采样帧,这样可以更好地选择与给定问题相一致的帧。在特征层面上,我们将可训练的视频感知器与Visual-Query Transformer(简称VQ-Former)集成在一起,以增强输入问题和视频特征之间的相互作用。我们还发现,将一个简单的提示“Please be critical”加入LLM输入可以大大增强其对视频的理解能力。我们的实验结果表明,VaQuitA在零样本视频问答任务中始终保持着新的基准,并且能够与用户生成高质量的多轮视频对话。
Dec, 2023
通过引入密集描述模态作为辅助信息,提出了一种新颖的端到端可训练模型,Event-Correlated Graph Neural Networks(EC-GNNs),以从三种模态(描述、视频和问题)中执行跨模态推理,并通过多步推理收集问题导向和事件相关证据。
Dec, 2023
通过分解为多阶段的模块化推理框架来解决视频问答(videoQA)任务,我们的方法MoReVQA通过事件解析器、定位阶段、最终推理阶段和外部存储器在标准视频问答基准测试中取得了最先进的结果,并在相关任务(基于视频的问答、段落字幕生成)上得到扩展。
Apr, 2024
利用跨模态对齐和表示融合方法,在Social IQ 2.0数据集上取得了82.06%的准确率,增强了视频模态的利用能力,并通过降低语言过拟合和当前技术所遇到的视频模态绕过等问题,提高了性能。
Apr, 2024