Apr, 2024

Movie101v2: 改进的电影叙事基准测试

TL;DR通过创建与视频对齐的情节描述来辅助视觉障碍观众,自动电影叙述与标准视频字幕不同,它需要描述关键的视觉细节,同时推断跨多个电影镜头发展的情节,因此存在独特和持续的挑战。为了推进自动电影叙述系统的发展,我们首先重新审视现有数据集的限制,并开发了一个大规模的双语电影叙述数据集 Movie101v2。其次,考虑到实现可应用的电影叙述的基本困难,我们将长期目标分为三个渐进阶段,并临时聚焦于特定片段内的理解。我们还引入了一种新的叙述评估来与我们的阶段性任务目标对齐。第三,利用我们的新数据集,我们对几种主要的大规模视觉语言模型进行了基准测试,包括 GPT-4V,并对当前模型在电影叙述生成方面面临的挑战进行了深入研究。我们的研究结果表明,实现可应用的电影叙述生成是一个引人入胜的目标,需要深入研究。