MovieNet: 电影理解的全面数据集
本文介绍了一个基于语义分类的大规模 Holistic 视频理解数据集 HVU,它实现了对多标签、多任务视频理解的全面考虑,以及介绍了一种新的综合外观和时间神经网络体系结构 HATNet,本文拓展了视频识别范畴,验证了 Holistic 表示学习在许多实际应用程序中的重要作用。
Apr, 2019
该研究收集、预处理并公开发布了一个视频 - 语言故事数据集 (SyMoN),包含 5,193 个受欢迎电影和电视剧的视频摘要,旨在为多模态故事理解的进展打下基础。
Mar, 2022
构建大规模多语言视频故事数据集 M-SYMON,包含 13166 个影片摘要视频和 101.5 小时视频的精细视频文本对应注释。使用 SyMoN 人工标注数据训练的结果,在剪辑准确率和句子 IoU 得分上超过 SOTA 方法分别达到 15.7 和 16.2 个百分点,证明了注释的有效性。同时,我们提供了六种具有不同多语言训练策略的基线方法,比较它们在单语内和跨语言设置中的性能,展示了多语言视频文本对齐的挑战。
Jun, 2024
MovieQA 数据集旨在评估从视频和文本中自动理解故事。该数据集包含大量关于 408 部电影的 14,944 个问题,是多种信息源的独特组合 —— 视频剪辑,情节,字幕,脚本和 DVS 等。研究人员对其进行了统计和方法分析,可扩展为现有 QA 技术,以展示具有这种开放式语义的问答是困难的。
Dec, 2015
本文旨在比较不同类型的视觉、音频、文本和基于元数据的特征对于预测电影的高层信息(如类型或预计预算)的有效性,并介绍了一个新的 Moviescope 数据集,该数据集包括 5000 部电影以及对应的预告片、海报、剧情和元数据。作者实证了在深度学习时代,基于内容的方法相对于基于人类和基于元数据的预测方法在该领域的有效性,并探究了表示视频和文本的时间特征聚合方法的有效性。此外,研究团队还展示了不同模态之间互补性的程度,并发现简单池化操作在该领域是有效的。
Aug, 2019
该论文介绍了一个通过从社交媒体网站获取包含多个成对图像 / 视频和文本的帖子以及包含图像 / 视频和 / 或文本的评论树来实现多模态学习的新的可公开获取的数据集,并提供了基线性能分析,适用于图像字幕、情感分析和预训练模型等多项任务。
Jun, 2020
SoccerNet-v2 提出了一个大规模手动注释的语料库,其中包含大约 300k 个注释,用于扩展足球领域中的任务,以推动计算机视觉更接近于针对更广泛视频理解和制作目的的自动解决方案。
Nov, 2020
本文提出了一个新的任务,MoviePuzzle,从充分利用视频数据中固有的视觉叙事结构着手,重组电影片段,并通过一种层次对比学习方法训练模型对每一层的正确顺序进行预测,该方法在 MoviePuzzle 基准测试中取得了最佳性能。
Jun, 2023
创新的方法使用人工生成的原始数据,结合 LLMS,构建了一个包含 305,000 个多项选择题的全面数据集 CinePile,涵盖视觉和多模态方面,包括对时间的理解、人物 - 对象交互的理解以及场景内事件或动作的推理。同时,还对最近的基于视频的 LLMs 进行了评估,发现即使是最先进的视频中心的 LLMs 在这些任务中也明显落后于人类的表现,突显了视频理解的复杂性和挑战。
May, 2024
通过创建与视频对齐的情节描述来辅助视觉障碍观众,自动电影叙述与标准视频字幕不同,它需要描述关键的视觉细节,同时推断跨多个电影镜头发展的情节,因此存在独特和持续的挑战。为了推进自动电影叙述系统的发展,我们首先重新审视现有数据集的限制,并开发了一个大规模的双语电影叙述数据集 Movie101v2。其次,考虑到实现可应用的电影叙述的基本困难,我们将长期目标分为三个渐进阶段,并临时聚焦于特定片段内的理解。我们还引入了一种新的叙述评估来与我们的阶段性任务目标对齐。第三,利用我们的新数据集,我们对几种主要的大规模视觉语言模型进行了基准测试,包括 GPT-4V,并对当前模型在电影叙述生成方面面临的挑战进行了深入研究。我们的研究结果表明,实现可应用的电影叙述生成是一个引人入胜的目标,需要深入研究。
Apr, 2024