通过填空问答了解视频数据的数据集和模型探究

Nov, 2016

通过填空问答了解视频数据的数据集和模型探究

A dataset and exploration of models for understanding video data through fill-in-the-blank question-answering

Tegan Maharaj, Nicolas Ballas, Anna Rohrbach, Aaron Courville, Christopher Pal

TL;DR本文提出 MovieFIB 数据集，包括超过 300,000 个问题，用于评估针对视频的模型，研究了 5 种不同模型的预测，比较了这些模型与人类表现的差异，并发现在针对视频的任务中，主要是结合了 2D 和 3D 的视觉信息可以提供最佳结果。

Abstract

While deep convolutional neural networks frequently approach or exceed human-level performance at benchmark tasks involving static images, extending this success to moving images is not straightforward. Having mo

convolutional neural networks video understanding benchmark question-answering dataset visual features

发现论文，激发创造

FIBER: 填空题作为挑战性视频理解评估框架

研究提出了视频理解评估框架和 FIBER 数据集，测试了模型对视频的理解程度，不同于问答或字幕生成任务的开放式评估方式，需要模型填写文本空缺部分，以检验其对视频的理解能力。

Apr, 2021

CinePile：一种长视频问答数据集和基准

创新的方法使用人工生成的原始数据，结合 LLMS，构建了一个包含 305,000 个多项选择题的全面数据集 CinePile，涵盖视觉和多模态方面，包括对时间的理解、人物 - 对象交互的理解以及场景内事件或动作的推理。同时，还对最近的基于视频的 LLMs 进行了评估，发现即使是最先进的视频中心的 LLMs 在这些任务中也明显落后于人类的表现，突显了视频理解的复杂性和挑战。

May, 2024

MoVQA：一项用于长篇电影理解的多功能问答基准

为了解决当前长篇视频理解数据集的局限性，研究引入了 MoVQA 数据集和基准评估，以评估多模态系统对多级时间长度的多样化认知能力，同时设计了从观影者角度出发的多模态问答来评估模型在感知和认知多个方面的能力。经过分析，各种方法在处理视频和线索长度不断增加时性能显著下降，基准方法有所改进，但在挑战性的 MoVQA 数据集上仍有充分的提升空间。预计 MoVQA 提供新的视角，并激励针对长篇视频理解研究的启发性工作。

Dec, 2023

揭示视频问答的时间背景

本文提出了一个基于循环神经网络的编码器 - 解码器方法，利用双通道排名损失来回答带有时间维度的选择题，同时探讨了 “填空题” 形式的方法来更细致地理解视频内容，并从 TACoS、MPII-MD、MEDTest 14 数据集中收集了超过 1,000 小时的 109,895 视频片段和 390,744 个对应的问题。大量实验表明，我们的方法显著优于已有的基准模型。

Nov, 2015

探索图像问答模型和数据

本研究旨在通过新的模型和数据集解决基于图像的问答问题，使用神经网络和视觉语义嵌入预测有关图像的简单问题的答案，提出了一种将图片描述转化为问答格式的问题生成算法，为新的数据集提供了基线结果。

May, 2015

使用带有空间 - 时间注意力的 LR/RL LSTM 进行视频填空

本文提出了一种框架来解决视频中的句子填空问题，该框架使用两个分开的 LSTM 来编码左右句子片段，引入了一个新的结构，将每个片段与相反的片段对应的外部记忆组合起来，并使用端到端的空间和时间注意模型选择区分性视觉表示来找到缺失的单词，实验证明了所提出的方法在具有挑战性的 VFIB 问题上的卓越性能。

Apr, 2017

视频问答中基于密集字幕匹配和帧选择门控的时间定位

本文提出了一种视频问答模型，它有效地集成了多模态输入源并从中找到临时相关信息以回答问题，该模型包括多种设计方法，包括基于稠密图像标题的对象及其详细显著区域和动作识别，双重关注，跨集成和引入了带有人类重要性注释来更好地监督模型的两个损失函数的门控，这个模型在多个数据集上的表现优于现有的技术。

May, 2020

教学视频问题回答数据集

提出了一种新的基于教学视频的问题回答任务，并介绍了一个包含约 6000 个三元组的数据集（视频，问题，回答跨度），并使用几个基准算法对其进行了实验，从而得出该任务的挑战性并呼吁探索新算法。

Dec, 2019

知识型视频问答：回答基于知识的问题

本研究提出了一种新颖的视频理解任务方法，将基于知识的问题回答融合进来，提出了一个关于情景喜剧的视频数据集 (包括 24,282 个由人类生成的问题 - 答案对)，该数据集融合了视觉、文本和时间的连贯思维，同时也需要观看该系列影片的体验知识才能回答基于知识的问题。其次，本文提出了一种能够将视觉和文本视频内容与与剧集相关的具体知识相结合的视频理解模型。主要发现是：（i）融入知识可在视频问答方面产生卓越的改进；（ii）关于现有视频建模的局限性，表明 “KnowIT VQA” 仍远远落后于人类的准确度，因此具有较高的研究价值。

Oct, 2019

用于医疗教学视频分类和问答的数据集

介绍新的数据集和任务，旨在促进医疗视频的理解与自然语言问题的视觉回答，并以这两项任务为重心，提供跨模态（医疗语言和医学视频）的理解挑战。这些任务和数据集有助于推动支持公众和医务人员受益的下游应用程序的发展，并已通过医学信息学专家的验证和修正。

Jan, 2022