视频问答的快慢神经推理
通过提出一种基于对象导向推理的动态交互视频场景中的视觉物体关系、行为和事件的深度神经网络模型(HOSTR),能够在多个视频问题回答基准数据集中取得最新的最高成就并显示出其可靠性、可解释性和高效性。
Jun, 2021
本文提出了三个特别设计用于视频 VQA 的新任务,推出一个新的大型数据集 TGIF-QA,并提出了一种利用空间和时间关注的双 LSTM 方法,证明其在经验评估中的有效性。
Apr, 2017
提出了一个 Dual-Visual Graph Reasoning Unit (DualVGR) 网络,在视频问答中实现可解释的查询惩罚模块同时捕捉外观和运动特征之间的关系,在 MSVD-QA 基准数据集上取得了最佳性能.
Jul, 2021
该论文提出了一种在视觉问答任务中使用通感推理的方法,该方法可以通过显式推理层来解决一些需要额外知识的问题,并提供可解释性的界面。该推理层采用了基于概率的软逻辑引擎,并运用了一篮子输入来进行推理。实验证实了该方法的有效性。
Mar, 2018
本文提出了一种结构化的双流注意力网络(STA)来解决视频问答(VQA),该网络可以识别视频中的长时空结构和文本特征,并将视觉与文本融合以提供准确的答案,在大规模视频 QA 数据集 TGIF-QA 上实验表明,STA 可将 Action,Trans,TrameQA 和 Count 任务的最佳效果提高 13.0%,13.5%,11.0%和 0.3%,在 Action,Trans,TrameQA 任务上也比最佳竞争对手提高 4.1%,4.7%和 5.1%。
Jun, 2022
该研究提出了一种针对实际视频问答任务的神经符号框架(NS-VideoQA),通过引入场景解析网络(SPN)和符号推理机(SRM),实现了对复合时空问题的高效推理和回答能力的提升。
Apr, 2024
本研究提出一种简单而有效的 Retrieving-to-Answer 框架,通过预先训练的多模态模型从通用文本语料库中检索到一组语义上相似的文本,再与问题一起使用大型语言模型产生答案,可以在多个 VideoQA 基准测试中达到较高水平,并且无需跨模态微调。
Jun, 2023
通过分解为多阶段的模块化推理框架来解决视频问答(videoQA)任务,我们的方法 MoReVQA 通过事件解析器、定位阶段、最终推理阶段和外部存储器在标准视频问答基准测试中取得了最先进的结果,并在相关任务(基于视频的问答、段落字幕生成)上得到扩展。
Apr, 2024