短片数据集 (SFD): 故事级视频理解的基准

Jun, 2024

短片数据集 (SFD): 故事级视频理解的基准

Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding

Ridouane Ghermi, Xi Wang, Vicky Kalogeiton, Ivan Laptev

TL;DR最近的视觉语言模型的进展在很大程度上推动了视频理解。然而，现有的数据集和任务存在显著的局限性。我们提出了一个包含 1,078 个公开可用的业余电影的短片数据集（SFD），它包括广泛的类型和最小的数据泄漏问题。通过多项选择和开放式问题回答的方式，SFD 提供了以长期故事为导向的视频任务。我们的实验证明了长期推理在解决 SFD 任务中的重要性。值得注意的是，我们发现电影剧本中存在强烈的信号，这导致人和视觉语言模型（LLM）的性能相当。我们还展示了当前模型在仅使用视觉数据时的性能明显较低于人类。

Abstract

Recent advances in vision-language models have significantly propelled video understanding. Existing datasets and tasks, however, have notable limitations. Most datasets are confined to short videos with limited events and narrow narratives. For example, datasets with instructional and

vision-language models video understanding short film dataset long-term reasoning performance of models

发现论文，激发创造

视觉叙事

首个序列视觉语言数据集的发布，这个数据集中包含 81,743 张唯一图片和 20,211 个序列，旨在探讨其在视觉叙事任务中的应用，建立多个强劲的基础模型以及推动基于自动度量标准的进展，为模拟具象和比喻、社交语言提供了可能，从而推动人工智能不断向更接近人类理解的基于事件结构和主观表达的方向发展。

Apr, 2016

电影叙事概述：一个用于故事理解的视频语言数据集

该研究收集、预处理并公开发布了一个视频 - 语言故事数据集 (SyMoN)，包含 5,193 个受欢迎电影和电视剧的视频摘要，旨在为多模态故事理解的进展打下基础。

Mar, 2022

基于上下文嵌入的故事检索简化版影片

本研究旨在通过提取电影的关键场景进行长距离理解电影的故事结构，创建了由超过 3,000 部电影中的关键场景组成的简化电影数据集（CMD），其中每个场景都附有场景的高级语义描述、角色面部轨迹和有关电影的元数据，提供了文本到视频检索的深度网络基线，并展示了从其他视频剪辑中添加联系如何提高检索性能。

May, 2020

电影描述数据集

本文提出了一个新的数据集 “Movie Description Dataset”，其中包括对于 72 部高清电影的超过 54,000 个句子和视频片段的平行语料库，此外，还比较了 DVS 和电影脚本这两种不同类型的电影描述。该数据集可用于基于计算机视觉和计算语言学的视频描述生成算法的性能评估。

Jan, 2015

通过填空问答了解视频数据的数据集和模型探究

本文提出 MovieFIB 数据集，包括超过 300,000 个问题，用于评估针对视频的模型，研究了 5 种不同模型的预测，比较了这些模型与人类表现的差异，并发现在针对视频的任务中，主要是结合了 2D 和 3D 的视觉信息可以提供最佳结果。

Nov, 2016

DVD：视频语境中多步推理的诊断数据集

本文介绍了 DVD 数据集，使用该数据集分析现有方法并提供有趣的见解，探讨视频对话系统的能力与局限性，并为不同类型的空间时间推理注释详细信息，该数据集明确旨在减少模型可能利用的偏见。

Jan, 2021

MovieLLM：使用 AI 生成的影片增强长视频理解能力

MovieLLM 提出了一种新颖的框架，利用 GPT-4 和文本到图像模型生成详细的脚本和对应的视觉，从而创造出长视频的合成高质量数据。该方法通过解决数据稀缺和偏见等问题，显著提高了多模态模型对复杂视频叙事的理解能力，克服了现有数据集的限制。

Mar, 2024

电影故事多语种概要：用于故事理解的数据集

构建大规模多语言视频故事数据集 M-SYMON，包含 13166 个影片摘要视频和 101.5 小时视频的精细视频文本对应注释。使用 SyMoN 人工标注数据训练的结果，在剪辑准确率和句子 IoU 得分上超过 SOTA 方法分别达到 15.7 和 16.2 个百分点，证明了注释的有效性。同时，我们提供了六种具有不同多语言训练策略的基线方法，比较它们在单语内和跨语言设置中的性能，展示了多语言视频文本对齐的挑战。

Jun, 2024

构建准确的视频生成模型：一项新的度量标准和挑战

近年来，深度生成模型在图像合成方面取得了可观的进展，但在视频领域的学习则更为困难，需要模型同时捕获场景的时间动态和对象的视觉呈现。该研究提出了用于评价视频生成模型的新评价度量 - Fréchet Video Distance，并提供了基于 StarCraft 2 的新的视频生成模型挑战基准进行了大规模的人体研究和初始基准结果。

Dec, 2018

AutoShot：短视频数据集和最新的镜头边缘检测技术

本研究通过提取 853 个完整的短视频和 11,606 个镜头注释，利用新数据财富，提出了一种名为 AutoShot 的方法，通过在包含各种先进的 3D ConvNets 和 Transformer 的搜索空间中进行神经架构搜索来优化短视频镜头分割的模型设计，并在新构建的 SHOT 数据集上对该方法进行了推导和评估，实现了比先前最先进方法更高的 F1 分数，也在 ClipShots、BBC 和 RAI 数据集上获得了更好的表现。

Apr, 2023