通过语义角色的短语实现视频问答

ACLApr, 2021

通过语义角色的短语实现视频问答

Video Question Answering with Phrases via Semantic Roles

Arka Sadhu, Kan Chen, Ram Nevatia

TL;DR本研究提出使用视频描述中的语义角色来在模型评估中引入填充短语任务，以改进现有的 VidQA 模型评估方式，并构建了 ActivityNet-SRL-QA 和 Charades-SRL-QA 数据集，通过扩展三种视觉语言模型进行了基准测试，并且进行了大量分析和研究以指导未来的研究工作。

Abstract

video question answering (vidqa) evaluation metrics have been limited to a single-word answer or selecting a phrase from a fixed set of phrases. These metrics limit the →

video question answering vidqa semantic roles activitynet-srl-qa charades-srl-qa

发现论文，激发创造

面向事件级别视频问答的语义感知动态回顾 - 预测推理

本文提出了一种语义感知的动态回顾 - 前瞻推理方法，用于视频问答，通过使用问题的语义角色标注（SRL）结构，实现了基于语义连接的复杂推理，在 TrafficQA 数据集上实验结果显示，相较于之前的最先进模型，该方法实现了卓越的性能提升。

May, 2023

利用视频描述学习视频问答

本文提出了一种可扩展的视频问答技术，利用自动生成的大量候选问题 - 答案对并使用自适应学习方法以处理其中存在的非理想数据，取得了优于基线模型的效果。

Nov, 2016

电影问答：我们是否在问正确的问题？

本研究探讨电影问答数据集中存在的语言偏见，提出一个简单的模型，通过合适的词向量训练，能够在不考虑视频和字幕等故事情境的情况下，通过观察问题和答案来回答约一半的问题。与排行榜上发表的最佳论文相比，我们的简单问题 + 答案模型在视频 + 字幕类别精度提高了 5％，在字幕、DVS 和剧本方面精度更是提高了 15％，这表明使用适当的词向量训练能够大大提高问答准确度。

Nov, 2019

视频问答：数据集、算法和挑战

本文针对 VideoQA 展开研究，提出了一个明确的分类学和全面的分析方法，并指出未来探索的几个有前途的方向。

Mar, 2022

开放式词汇视频问答：评估视频问答模型的通用性的新基准

提出了 Open-vocabulary Video Question Answering（OVQA）基准测试，旨在通过考虑罕见和未知的答案来衡量 VideoQA 模型的泛化能力，并引入一种改进了模型泛化能力的新型 GNN-based soft verbalizer。

Aug, 2023

LingoQA：自动驾驶视频问答

自动驾驶领域长期以来面临着公众接受度低的问题，本研究通过视频问答的自然语言处理为决策过程提供了可解释性，同时引入了 LingoQA 基准测试集以填补评估视频问答模型性能的空白，并通过与人工评估的 0.95 斯皮尔曼相关系数进行了验证，其次还提出了一个包含 419,000 个样本的中央伦敦视频问答数据集，建立了基线视觉 - 语言模型，并进行了大量的消融分析以评估其性能。

Dec, 2023

YTCommentQA: 教学视频中的视频问题可回答性

展示了 YTCommentQA 数据集，该数据集包含了 YouTube 上自然生成的问题，按照其可回答性和回答所需的模态进行分类，实验结果突出了在视频推理中视觉和脚本信息的综合作用。

Jan, 2024

通过冻结大型语言模型实现零样本视频问答

本研究提出一种简单而有效的 Retrieving-to-Answer 框架，通过预先训练的多模态模型从通用文本语料库中检索到一组语义上相似的文本，再与问题一起使用大型语言模型产生答案，可以在多个 VideoQA 基准测试中达到较高水平，并且无需跨模态微调。

Jun, 2023

从特征和样本的视角重新思考视频问答中的多模态对齐

本论文提出一种基于多模态对齐、轨迹特征、层次化框架和训练数据扩充的视频问答方法，并在 NExT-QA 基准测试上表现出很高的性能。

Apr, 2022

视频问答的近期进展：数据集和方法回顾

本综述探讨了最近新兴的计算机视觉领域中的视频问答任务，重点回顾了一些方法和数据集，并指出此任务以前没有进行过综述。

Jan, 2021