构建视频故事理解的分层问答数据集
本研究提供了一种综合理解视频故事的新的视频问答(Video QA)任务,名为 DramaQA,使用层次化的问题回答和基于人类认知过程的评估标准,以及基于角色的视频注释来建模故事的局部连贯性。研究者们还提供了一个多层级上下文匹配模型来回答问题,并公开了相关数据及模型。
May, 2020
通过提出一种基于对象导向推理的动态交互视频场景中的视觉物体关系、行为和事件的深度神经网络模型(HOSTR),能够在多个视频问题回答基准数据集中取得最新的最高成就并显示出其可靠性、可解释性和高效性。
Jun, 2021
MovieQA 数据集旨在评估从视频和文本中自动理解故事。该数据集包含大量关于 408 部电影的 14,944 个问题,是多种信息源的独特组合 —— 视频剪辑,情节,字幕,脚本和 DVS 等。研究人员对其进行了统计和方法分析,可扩展为现有 QA 技术,以展示具有这种开放式语义的问答是困难的。
Dec, 2015
本文提供了一个分析影片问答模型的框架,并利用可自定义的合成数据集对其进行分析,以了解对视频事件的时间依赖性进行推理的能力,验证了数据集中包含不同复杂度事件的重要性,以学习有效模型并改善整体性能。
Dec, 2016
提出了一种新的基于教学视频的问题回答任务,并介绍了一个包含约 6000 个三元组的数据集(视频,问题,回答跨度),并使用几个基准算法对其进行了实验,从而得出该任务的挑战性并呼吁探索新算法。
Dec, 2019
本研究提出了一种新颖的视频理解任务方法,将基于知识的问题回答融合进来,提出了一个关于情景喜剧的视频数据集 (包括 24,282 个由人类生成的问题 - 答案对),该数据集融合了视觉、文本和时间的连贯思维,同时也需要观看该系列影片的体验知识才能回答基于知识的问题。其次,本文提出了一种能够将视觉和文本视频内容与与剧集相关的具体知识相结合的视频理解模型。主要发现是:(i)融入知识可在视频问答方面产生卓越的改进;(ii)关于现有视频建模的局限性,表明 “KnowIT VQA” 仍远远落后于人类的准确度,因此具有较高的研究价值。
Oct, 2019
通过使用大量卡通视频学习,我们展示了 AI 代理执行视频故事问答的可能性。我们的深度嵌入记忆网络 (DEMN) 模型使用观测数据的潜在嵌入空间重构场景 - 对话视频流中的故事,并将视频故事存储在长期记忆组件中。对于给定的问题,基于 LSTM 的注意力模型使用长期记忆来召回包含关键信息的特定单词的最佳问题 - 故事 - 答案三元组。我们在一个新的儿童卡通视频系列 Pororo 的 QA 数据集上训练了 DEMN,并且实验结果表明 DEMN 在 QA 上优于其他模型,这主要得益于 1)利用潜在嵌入对场景 - 对话组合形式的视频故事进行重构,2)使用了注意力。DEMN 还在 MovieQA 基准测试上实现了最先进的成果。
Jul, 2017
本文介绍了一种新颖的文本生成任务 ——SQUASH(Specificity-controlled Question-Answer Hierarchies),其将输入文档转换为一组问题 - 答案对的层级结构,以实现读者自主了解与探索具体信息,并使用一种基于条件神经语言模型的管道系统来评估所生成 QA 层次结构的质量。
Jun, 2019