电影叙事概述:一个用于故事理解的视频语言数据集
构建大规模多语言视频故事数据集 M-SYMON,包含 13166 个影片摘要视频和 101.5 小时视频的精细视频文本对应注释。使用 SyMoN 人工标注数据训练的结果,在剪辑准确率和句子 IoU 得分上超过 SOTA 方法分别达到 15.7 和 16.2 个百分点,证明了注释的有效性。同时,我们提供了六种具有不同多语言训练策略的基线方法,比较它们在单语内和跨语言设置中的性能,展示了多语言视频文本对齐的挑战。
Jun, 2024
通过构建 327 个电影的电影简介关联(Movie Synopses Associations,MSA)数据集,以及开发一套能够识别电影片段并且和简介段落进行精准匹配的框架,本研究指出利用文学结构和人物互动来提高匹配精度是非常重要的,相较于传统的特征匹配方法,这种基于图形的综合匹配策略能够在电影理解领域有实质性的提升。
Oct, 2019
首个序列视觉语言数据集的发布,这个数据集中包含 81,743 张唯一图片和 20,211 个序列,旨在探讨其在视觉叙事任务中的应用,建立多个强劲的基础模型以及推动基于自动度量标准的进展,为模拟具象和比喻、社交语言提供了可能,从而推动人工智能不断向更接近人类理解的基于事件结构和主观表达的方向发展。
Apr, 2016
通过创建与视频对齐的情节描述来辅助视觉障碍观众,自动电影叙述与标准视频字幕不同,它需要描述关键的视觉细节,同时推断跨多个电影镜头发展的情节,因此存在独特和持续的挑战。为了推进自动电影叙述系统的发展,我们首先重新审视现有数据集的限制,并开发了一个大规模的双语电影叙述数据集 Movie101v2。其次,考虑到实现可应用的电影叙述的基本困难,我们将长期目标分为三个渐进阶段,并临时聚焦于特定片段内的理解。我们还引入了一种新的叙述评估来与我们的阶段性任务目标对齐。第三,利用我们的新数据集,我们对几种主要的大规模视觉语言模型进行了基准测试,包括 GPT-4V,并对当前模型在电影叙述生成方面面临的挑战进行了深入研究。我们的研究结果表明,实现可应用的电影叙述生成是一个引人入胜的目标,需要深入研究。
Apr, 2024
该研究介绍了一个摘要数据集,提供了一个具有挑战性的抽象摘要测试平台,并通过对神经模型和邻近算法等多种方法的评估,展示了神经模型无法充分利用输入文本的事实,同时证明了我们的非最优模型在生成忠实的情节事件方面具有竞争力,并可以从更好的内容选择器中受益。
Apr, 2021
使用电影简介和评论来描绘背景和风格的多视角模型,对象多标签数据集的实验包括电影简介和各种属性,表明相比于仅使用简介的方法,它可以提高分类准确性,最后,展示如何使用类型推导来提取评论中的故事属性。
Aug, 2019
本文提出了一个新的数据集 “Movie Description Dataset”,其中包括对于 72 部高清电影的超过 54,000 个句子和视频片段的平行语料库,此外,还比较了 DVS 和电影脚本这两种不同类型的电影描述。该数据集可用于基于计算机视觉和计算语言学的视频描述生成算法的性能评估。
Jan, 2015
该研究通过提出一种机器学习方法,介绍了一种记忆增强视频语义网络来捕捉电影中的叙事元素,从而在两个任务中成功预测电影的流派和 IMDB 评分。
Nov, 2020
我们提出了一个新的联合视频和文本摘要任务,旨在生成一个缩短的视频剪辑和相应的文本摘要,我们通过构建一个大规模的人类注释数据集 - VideXum 来解决此问题,并使用新的度量标准 VT-CLIPScore 来评估跨模态摘要的语义一致性。我们提出的 VTSUM-BILP 模型在此任务上取得了有希望的性能,并为未来研究建立了基准。
Mar, 2023