Movie101v2: 改进的电影叙事基准测试

Apr, 2024

Movie101v2: 改进的电影叙事基准测试

Movie101v2: Improved Movie Narration Benchmark

Zihao Yue, Yepeng Zhang, Ziheng Wang, Qin Jin

TL;DR通过创建与视频对齐的情节描述来辅助视觉障碍观众，自动电影叙述与标准视频字幕不同，它需要描述关键的视觉细节，同时推断跨多个电影镜头发展的情节，因此存在独特和持续的挑战。为了推进自动电影叙述系统的发展，我们首先重新审视现有数据集的限制，并开发了一个大规模的双语电影叙述数据集 Movie101v2。其次，考虑到实现可应用的电影叙述的基本困难，我们将长期目标分为三个渐进阶段，并临时聚焦于特定片段内的理解。我们还引入了一种新的叙述评估来与我们的阶段性任务目标对齐。第三，利用我们的新数据集，我们对几种主要的大规模视觉语言模型进行了基准测试，包括 GPT-4V，并对当前模型在电影叙述生成方面面临的挑战进行了深入研究。我们的研究结果表明，实现可应用的电影叙述生成是一个引人入胜的目标，需要深入研究。

Abstract

automatic movie narration targets at creating video-aligned plot descriptions to assist visually impaired audiences. It differs from standard video captioning in that it requires not only describing key visual de

automatic movie narration visually impaired audiences bilingual movie narration dataset vision-language models movie narration generation

发现论文，激发创造

Movie101: 一个新的电影理解基准

该研究提出了一个大型的中文电影评测基准 Movie101，旨在为视障人士提供自动电影叙述系统。在该基准中，MCN 任务要求模型为没有演员说话的完整电影片段生成角色感知的叙述段落。在使用电影流派和角色信息等外部信息的同时，该研究提出了用于电影叙述评估的新指标 MNScore，从而使模型评估更接近人工评估。该研究还支持 TNG 任务，以研究相应电影片段与文本描述之间的精确对齐问题。

May, 2023

电影故事多语种概要：用于故事理解的数据集

构建大规模多语言视频故事数据集 M-SYMON，包含 13166 个影片摘要视频和 101.5 小时视频的精细视频文本对应注释。使用 SyMoN 人工标注数据训练的结果，在剪辑准确率和句子 IoU 得分上超过 SOTA 方法分别达到 15.7 和 16.2 个百分点，证明了注释的有效性。同时，我们提供了六种具有不同多语言训练策略的基线方法，比较它们在单语内和跨语言设置中的性能，展示了多语言视频文本对齐的挑战。

Jun, 2024

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频 - 语言基准上取得了显著结果。

Jan, 2024

超越字幕到叙事：视频多句子字幕

本研究提出了一种视频片段分割、多帧生成多个盛传、并采用自然语言技术将其连接成故事式视频字幕的方法，实现丰富内容的视频字幕生成，结果表明该方法不需要显式输入视频级别特征即可提供丰富内容，与最新技术方法相同。

May, 2016

电影叙事概述：一个用于故事理解的视频语言数据集

该研究收集、预处理并公开发布了一个视频 - 语言故事数据集 (SyMoN)，包含 5,193 个受欢迎电影和电视剧的视频摘要，旨在为多模态故事理解的进展打下基础。

Mar, 2022

HowTo100M: 通过观看亿万叙述视频剪辑学习文本 - 视频嵌入

本文提出了使用具有自然语言注释的视频数据来学习文本 - 视频嵌入。我们介绍了 HowTo100M 数据集，该数据集包含了源自于 1.22 百万个讲解视频的 1.36 亿段视频剪辑，能够用于不同领域的学习，证明结果表明，该嵌入方式适用于不同的数据集和领域。

Jun, 2019

MM-Narrator: 多模态上下文学习中的长视频叙事

提出了一种利用 GPT-4 进行多模态上下文学习的新系统 ——MM-Narrator，用于音频描述的生成。通过提出的记忆增强生成过程，该系统能够在自回归方式下生成准确的音频描述，即使是超过数小时的长视频。MM-Narrator 还采用复杂度为基础的演示选择策略，通过少样本的多模态上下文学习（MM-ICL）大大增强了其多步推理能力。在 MAD-eval 数据集上进行的实验结果表明，MM-Narrator 在大多数情况下都优于现有的基于微调和基于 LLM 的方法，在标准评估指标下得分更高。此外，还引入了首个基于片段的重复文本生成评估器，该评估器通过 GPT-4 全面推理和评估音频描述生成的性能。

Nov, 2023

StoryBench：用于连续故事可视化的多面向指标

从文本提示中生成视频故事是一项复杂的任务，需要高质量的视觉效果，视频需要根据文本提示的顺序进行逼真的呈现，而且在整个帧中保持一致。为了填补数据集中常见的仅包含单个标题的视频数据集的不足，我们在三个现有数据集上收集全面的人工注释，并引入了 StoryBench：一个新的、具有挑战性的多任务基准，可可靠地评估即将推出的文本到视频模型。我们的基准包括三个逐渐增加难度的视频生成任务：动作执行，即从条件视频开始生成下一个动作；故事延续，即从条件视频开始执行一系列动作；以及故事生成，即仅从文本提示生成视频。我们评估了一些小而强大的文本到视频基线，并展示了根据现有视频标题算法生成的类似故事的数据进行训练的好处。最后，我们为人工评估视频故事建立了指南，并重申了对于视频生成而言更好的自动度量指标的需求。StoryBench 旨在鼓励未来在这个令人兴奋的新领域中的研究。

Aug, 2023

HowToCaption: 规模化促使 LLMs 转化视频注释

利用大型语言模型从自动语音识别摘要中创建与视频对齐的细致视频描述，以达到大规模教学视频数据训练文本 - 视频模型的目的。这项工作应用于 HowTo100M 数据集的副标题，创建了一个新的大规模数据集 HowToCaption，其结果不仅显著改善了许多不同基准数据集上的文本 - 视频检索性能，还将文本叙述与音频相分离，在文本 - 视频 - 音频任务中提升了性能。

Oct, 2023

从未经筛选的教育视频中的视觉表示端到端学习

本文介绍了一种新的学习方法，MIL-NCE, 用于从讲述视频中学习强大的视频表示，并能够在不需要手动注释的情况下进行。该方法通过对齐不对称的讲述视频，有效地学习了视频表示。作者在 HMDB-51、UCF-101、Kinetics-700 等多个数据集上进行了评估，证明了该方法优于已发表的自监督方法和多个全监督基准线的表现。

Dec, 2019