电影故事多语种概要：用于故事理解的数据集

Jun, 2024

电影故事多语种概要：用于故事理解的数据集

Multilingual Synopses of Movie Narratives: A Dataset for Story Understanding

Yidan Sun, Jianfei Yu, Boyang Li

TL;DR构建大规模多语言视频故事数据集 M-SYMON，包含 13166 个影片摘要视频和 101.5 小时视频的精细视频文本对应注释。使用 SyMoN 人工标注数据训练的结果，在剪辑准确率和句子 IoU 得分上超过 SOTA 方法分别达到 15.7 和 16.2 个百分点，证明了注释的有效性。同时，我们提供了六种具有不同多语言训练策略的基线方法，比较它们在单语内和跨语言设置中的性能，展示了多语言视频文本对齐的挑战。

Abstract

story video-text alignment, a core task in computational story understanding, aims to align video clips with corresponding sentences in their descriptions. However, progress on the task has been held back by the

story video-text alignment computational story understanding multilingual video story dataset video-text correspondence multilingual training strategies

发现论文，激发创造

电影叙事概述：一个用于故事理解的视频语言数据集

该研究收集、预处理并公开发布了一个视频 - 语言故事数据集 (SyMoN)，包含 5,193 个受欢迎电影和电视剧的视频摘要，旨在为多模态故事理解的进展打下基础。

Mar, 2022

Movie101v2: 改进的电影叙事基准测试

通过创建与视频对齐的情节描述来辅助视觉障碍观众，自动电影叙述与标准视频字幕不同，它需要描述关键的视觉细节，同时推断跨多个电影镜头发展的情节，因此存在独特和持续的挑战。为了推进自动电影叙述系统的发展，我们首先重新审视现有数据集的限制，并开发了一个大规模的双语电影叙述数据集 Movie101v2。其次，考虑到实现可应用的电影叙述的基本困难，我们将长期目标分为三个渐进阶段，并临时聚焦于特定片段内的理解。我们还引入了一种新的叙述评估来与我们的阶段性任务目标对齐。第三，利用我们的新数据集，我们对几种主要的大规模视觉语言模型进行了基准测试，包括 GPT-4V，并对当前模型在电影叙述生成方面面临的挑战进行了深入研究。我们的研究结果表明，实现可应用的电影叙述生成是一个引人入胜的目标，需要深入研究。

Apr, 2024

一种基于图的框架，用于连接电影和简介

通过构建 327 个电影的电影简介关联（Movie Synopses Associations，MSA）数据集，以及开发一套能够识别电影片段并且和简介段落进行精准匹配的框架，本研究指出利用文学结构和人物互动来提高匹配精度是非常重要的，相较于传统的特征匹配方法，这种基于图形的综合匹配策略能够在电影理解领域有实质性的提升。

Oct, 2019

VideoXum: 视频的跨模态视觉和文本摘要

我们提出了一个新的联合视频和文本摘要任务，旨在生成一个缩短的视频剪辑和相应的文本摘要，我们通过构建一个大规模的人类注释数据集 - VideXum 来解决此问题，并使用新的度量标准 VT-CLIPScore 来评估跨模态摘要的语义一致性。我们提出的 VTSUM-BILP 模型在此任务上取得了有希望的性能，并为未来研究建立了基准。

Mar, 2023

利用语言引导的自监督视频摘要生成方法，考虑视频多样性的文本语义匹配

通过使用大型语言模型作为引导，本文提出了一种新颖的自监督视频摘要框架，通过生成视频帧的字幕，并将其合成为文本摘要，衡量帧字幕和文本摘要之间的语义距离，最终选择与文本摘要相似的帧来生成摘要视频。该方法在视频摘要任务中取得了有竞争力的结果，并为视频摘要领域开辟了新的道路。

May, 2024

视觉叙事

首个序列视觉语言数据集的发布，这个数据集中包含 81,743 张唯一图片和 20,211 个序列，旨在探讨其在视觉叙事任务中的应用，建立多个强劲的基础模型以及推动基于自动度量标准的进展，为模拟具象和比喻、社交语言提供了可能，从而推动人工智能不断向更接近人类理解的基于事件结构和主观表达的方向发展。

Apr, 2016

大规模语言模型在视频摘要预训练中的扩展

利用大型语言模型生成大规模的视频摘要数据集，提出了一种新的视频摘要模型，并呈现了一个由专业人员注释的高质量摘要的基准数据集，实验证明该方法在多个基准测试中达到了最新的最佳效果。

Apr, 2024

基于多模态自监督学习的渐进式视频摘要技术

本文介绍了一种基于深度神经网络的视频摘要方法，该方法使用了多模态自监督学习框架，该框架可以在不需要大规模标注数据的情况下，通过视频与文本之间的语义一致性来获取视频的语义表示，并提出了一种渐进式摘要方法。实验表明，该方法的排名相关系数和 F 分数均优于现有视频摘要方法。

Jan, 2022

基于字符级神经网络的 SUMMA 项目跨语言媒体监测翻译

通过使用序列到序列的神经翻译模型的低维语义表示能力，该论文尝试解决自动多语种新闻监测中出现的两个问题：将电视和广播节目 ASR 转录分割成单个故事，对来自各种来源和语言的单个故事进行故事线聚类。为了实现多语种神经翻译的联合多任务学习，论文使用滑动窗口机制替换注意力机制，并在字符级别而非单词级别上操作序列到序列的神经翻译模型处理分割和聚类问题。通过检查作为神经翻译过程副产品产生的低维向量，解决分割故事和故事线聚类问题的方法值得进一步研究。

Apr, 2016

BigVideo：一份大规模视频字幕翻译数据集，用于多模式机器翻译

本研究提出了一个大规模的视频字幕翻译数据集 BigVideo，用于促进多模态机器翻译的研究；在跨模态编码器中引入了对比学习方法，结果表明视觉信息能够显著提高 NMT 模型的性能并帮助消除歧义。

May, 2023