知识型视频问答：回答基于知识的问题

Oct, 2019

知识型视频问答：回答基于知识的问题

KnowIT VQA: Answering Knowledge-Based Questions about Videos

Noa Garcia, Mayu Otani, Chenhui Chu, Yuta Nakashima

TL;DR本研究提出了一种新颖的视频理解任务方法，将基于知识的问题回答融合进来，提出了一个关于情景喜剧的视频数据集 (包括 24,282 个由人类生成的问题 - 答案对)，该数据集融合了视觉、文本和时间的连贯思维，同时也需要观看该系列影片的体验知识才能回答基于知识的问题。其次，本文提出了一种能够将视觉和文本视频内容与与剧集相关的具体知识相结合的视频理解模型。主要发现是：（i）融入知识可在视频问答方面产生卓越的改进；（ii）关于现有视频建模的局限性，表明 “KnowIT VQA” 仍远远落后于人类的准确度，因此具有较高的研究价值。

Abstract

We propose a novel video understanding task by fusing knowledge-based and video question answering. First, we introduce KnowIT VQA, a vide

video understanding knowledge-based question answering dataset video content

发现论文，激发创造

TVQA: 本地化、组合式视频问答

本文提出 TVQA，一个基于 6 个流行电视节目的大规模视频问答数据集，共计包含 152,545 对 QA 对，分布在 21,793 个片段中，共涵盖了 460 小时的视频。该数据集中的问题具有组合性质，需要系统联合定位剪辑中的相关片段，理解基于字幕的对话，并识别相关的视觉概念。作者提供了该数据集的分析以及几个基线模型和一个多流端到端可训练的神经网络框架。

Sep, 2018

视频问答的近期进展：数据集和方法回顾

本综述探讨了最近新兴的计算机视觉领域中的视频问答任务，重点回顾了一些方法和数据集，并指出此任务以前没有进行过综述。

Jan, 2021

OK-VQA：需要外部知识的视觉问答基准

本文提出了名为 OK-VQA 的基于知识的视觉问答基准，要求使用外部知识资源来回答问题，该任务是多样的、困难的和大型的，与以前的基于知识的 VQA 数据集相比具有更高的难度。

May, 2019

A-OKVQA: 利用世界知识的视觉问答基准

介绍了 A-OKVQA 数据集，它包含了约 25000 个多样化的问题，需要广泛的常识和世界知识才能回答，相对于现有的基于知识的 VQA 数据集，这些问题通常不能通过简单地查询知识库来回答，而是需要对图像中所描绘的场景进行某种形式的常识推理，该数据集对几种最先进的视觉语言模型进行了基础性能测试。

Jun, 2022

TGIF-QA：关于视觉问答中时空推理的研究

本文提出了三个特别设计用于视频 VQA 的新任务，推出一个新的大型数据集 TGIF-QA，并提出了一种利用空间和时间关注的双 LSTM 方法，证明其在经验评估中的有效性。

Apr, 2017

视频问答：数据集、算法和挑战

本文针对 VideoQA 展开研究，提出了一个明确的分类学和全面的分析方法，并指出未来探索的几个有前途的方向。

Mar, 2022

通过文本理解视频场景：来自基于文本的视频问答的洞察

研究人员广泛研究了视觉和语言领域，发现理解场景需要理解视觉和文字内容，特别是在视频中理解文字对于回答问题非常重要。本文集中探索了两个最近推出的数据集，NewsVideoQA 和 M4-ViteVQA，这两个数据集旨在通过文字内容进行视频问答。NewsVideoQA 数据集包含与新闻视频中的文本相关的问答对，而 M4-ViteVQA 包含来自不同类别（如视频博客、旅游和购物）的问答对。我们在各个层面上分析了这些数据集的构建情况，探讨了回答问题所需的视觉理解和多帧理解的程度。此外，本研究还进行了与仅文本模型 BERT-QA 的实验，结果显示在这两个数据集上，BERT-QA 的表现与原始方法相当，指示了这些数据集构建上的不足之处。此外，我们还探讨了域适应方面的问题，通过在 M4-ViteVQA 上进行训练并在 NewsVideoQA 上进行评估以及反之，从而探讨了跨领域训练的挑战和潜在好处。

Sep, 2023

教学视频问题回答数据集

提出了一种新的基于教学视频的问题回答任务，并介绍了一个包含约 6000 个三元组的数据集（视频，问题，回答跨度），并使用几个基准算法对其进行了实验，从而得出该任务的挑战性并呼吁探索新算法。

Dec, 2019

基于知识的 VQA 的知识浓缩和推理

我们提出两个协同模型：知识浓缩模型和知识推理模型。这两种浓缩的知识被无缝地集成到我们的知识推理模型中，巧妙地导航综合信息以得出最终答案。与以前的方法相比，我们的方法在基于知识的 VQA 数据集上（OK-VQA 的 65.1％，A-OKVQA 的 60.1％）取得了最先进的性能，而不依赖 GPT-3（175B）生成的知识。

Mar, 2024

基于跨模态知识推理的基于知识的视觉问答

本文提出了基于多个知识图谱的知识的视觉问答模型，通过串联的 GRUC 模块，对不同模态的图像信息进行并行推理，最终利用图神经网络获得全局最优解，在三个流行基准数据集上获得新的 state-of-the-art 表现结果。

Aug, 2020