构建视频故事理解的分层问答数据集

AAAIApr, 2019

构建视频故事理解的分层问答数据集

Constructing Hierarchical Q&A Datasets for Video Story Understanding

Yu-Jung Heo, Kyoung-Woon On, Seongho Choi, Jaeseo Lim, Jinah Kim...

TL;DR本文提出了一种分层方法来构建 Q&A 数据集，介绍了视频故事理解的三个标准：记忆容量、逻辑复杂度和 DIKW 金字塔，并讨论了如何从这些标准构建三维图来评估与视频故事理解相关的智能水平。

Abstract

video understanding is emerging as a new paradigm for studying human-like AI. question-and-answering (Q&A) is used as a general benchmark to measure the level of intelligence for →

video understanding question-and-answering hierarchical method story understanding dikw pyramid

发现论文，激发创造

DramaQA：基于角色的视频故事理解与分层问答

本研究提供了一种综合理解视频故事的新的视频问答（Video QA）任务，名为 DramaQA，使用层次化的问题回答和基于人类认知过程的评估标准，以及基于角色的视频注释来建模故事的局部连贯性。研究者们还提供了一个多层级上下文匹配模型来回答问题，并公开了相关数据及模型。

May, 2020

视频问答：数据集、算法和挑战

本文针对 VideoQA 展开研究，提出了一个明确的分类学和全面的分析方法，并指出未来探索的几个有前途的方向。

Mar, 2022

视频问答的分层面向对象时空推理

通过提出一种基于对象导向推理的动态交互视频场景中的视觉物体关系、行为和事件的深度神经网络模型（HOSTR），能够在多个视频问题回答基准数据集中取得最新的最高成就并显示出其可靠性、可解释性和高效性。

Jun, 2021

电影问答：通过问题回答理解电影故事

MovieQA 数据集旨在评估从视频和文本中自动理解故事。该数据集包含大量关于 408 部电影的 14,944 个问题，是多种信息源的独特组合 —— 视频剪辑，情节，字幕，脚本和 DVS 等。研究人员对其进行了统计和方法分析，可扩展为现有 QA 技术，以展示具有这种开放式语义的问答是困难的。

Dec, 2015

MarioQA：通过观看游戏玩法视频来回答问题

本文提供了一个分析影片问答模型的框架，并利用可自定义的合成数据集对其进行分析，以了解对视频事件的时间依赖性进行推理的能力，验证了数据集中包含不同复杂度事件的重要性，以学习有效模型并改善整体性能。

Dec, 2016

教学视频问题回答数据集

提出了一种新的基于教学视频的问题回答任务，并介绍了一个包含约 6000 个三元组的数据集（视频，问题，回答跨度），并使用几个基准算法对其进行了实验，从而得出该任务的挑战性并呼吁探索新算法。

Dec, 2019

知识型视频问答：回答基于知识的问题

本研究提出了一种新颖的视频理解任务方法，将基于知识的问题回答融合进来，提出了一个关于情景喜剧的视频数据集 (包括 24,282 个由人类生成的问题 - 答案对)，该数据集融合了视觉、文本和时间的连贯思维，同时也需要观看该系列影片的体验知识才能回答基于知识的问题。其次，本文提出了一种能够将视觉和文本视频内容与与剧集相关的具体知识相结合的视频理解模型。主要发现是：（i）融入知识可在视频问答方面产生卓越的改进；（ii）关于现有视频建模的局限性，表明 “KnowIT VQA” 仍远远落后于人类的准确度，因此具有较高的研究价值。

Oct, 2019

视频问答的近期进展：数据集和方法回顾

本综述探讨了最近新兴的计算机视觉领域中的视频问答任务，重点回顾了一些方法和数据集，并指出此任务以前没有进行过综述。

Jan, 2021

DeepStory: 基于深度内嵌记忆网络的视频故事问答

通过使用大量卡通视频学习，我们展示了 AI 代理执行视频故事问答的可能性。我们的深度嵌入记忆网络 (DEMN) 模型使用观测数据的潜在嵌入空间重构场景 - 对话视频流中的故事，并将视频故事存储在长期记忆组件中。对于给定的问题，基于 LSTM 的注意力模型使用长期记忆来召回包含关键信息的特定单词的最佳问题 - 故事 - 答案三元组。我们在一个新的儿童卡通视频系列 Pororo 的 QA 数据集上训练了 DEMN，并且实验结果表明 DEMN 在 QA 上优于其他模型，这主要得益于 1）利用潜在嵌入对场景 - 对话组合形式的视频故事进行重构，2）使用了注意力。DEMN 还在 MovieQA 基准测试上实现了最先进的成果。

Jul, 2017

生成问答层次结构

本文介绍了一种新颖的文本生成任务 ——SQUASH（Specificity-controlled Question-Answer Hierarchies），其将输入文档转换为一组问题 - 答案对的层级结构，以实现读者自主了解与探索具体信息，并使用一种基于条件神经语言模型的管道系统来评估所生成 QA 层次结构的质量。

Jun, 2019