从电影剧情简介和评论中获取多视角故事人物塑造
通过构建 327 个电影的电影简介关联(Movie Synopses Associations,MSA)数据集,以及开发一套能够识别电影片段并且和简介段落进行精准匹配的框架,本研究指出利用文学结构和人物互动来提高匹配精度是非常重要的,相较于传统的特征匹配方法,这种基于图形的综合匹配策略能够在电影理解领域有实质性的提升。
Oct, 2019
构建大规模多语言视频故事数据集 M-SYMON,包含 13166 个影片摘要视频和 101.5 小时视频的精细视频文本对应注释。使用 SyMoN 人工标注数据训练的结果,在剪辑准确率和句子 IoU 得分上超过 SOTA 方法分别达到 15.7 和 16.2 个百分点,证明了注释的有效性。同时,我们提供了六种具有不同多语言训练策略的基线方法,比较它们在单语内和跨语言设置中的性能,展示了多语言视频文本对齐的挑战。
Jun, 2024
该研究收集、预处理并公开发布了一个视频 - 语言故事数据集 (SyMoN),包含 5,193 个受欢迎电影和电视剧的视频摘要,旨在为多模态故事理解的进展打下基础。
Mar, 2022
本文利用社会标记的方法收集电影剧情概要和标记的语料库,建立了一个以约 70 个细粒度标签为特征的电影数据集,探讨了这些标签与电影以及不同类型电影情感的相关性,最后研究了通过剧情概要推断标记的可行性。
Feb, 2018
通过研究电影人物,从社群策展的 20000 个主题中捕捉主题级别上的相似性,提出了一种新的任务来捕捉自然语言处理中尚未被完全研究的人类体验方面,展示了主题信息学习如何用于理解 Reddit 帖子中人们的体验主题。
Oct, 2020
该研究利用 VIST 数据集,提出了一个模型,通过隐式学习提供的角色之间的关系,生成关注的角色的故事,旨在解决基于图像序列生成故事时,模型忽略可能存在的人和动物角色的问题。
Sep, 2019
本研究旨在创建适用于电影的标签,通过提出一种新型的神经网络模型,该模型将电影情节和情感融合以预测电影的标签,结果显示情感流的引入提高了标签的预测准确度。
Aug, 2018
通过利用电视剧情节回顾的短视频序列,我们介绍了多模态故事摘要,以将观众带入故事的关键时刻。我们提出了一个名为 PlotSnap 的数据集,其中有两部长达 40 分钟的犯罪惊悚电视剧,拥有丰富的回顾和剧集摘要。我们的方法通过将回顾镜头与剧集中的相应子故事进行匹配,从整个剧集中提取多个情节点,采用 TaleSumm 分层模型处理整个剧集,并创建紧凑的镜头和对话表示,并通过启用局部故事组之间的相互作用,为每个视频镜头和对话发言预测重要性分数。我们展示了对故事摘要的全面评估,包括有前途的跨系列泛化。TaleSumm 模型在经典视频摘要基准测试中也显示出良好的结果。
May, 2024
这篇论文主要研究了如何用模块化方法总结电视节目,涉及人工智能研究中的复杂推理、多模态和长篇叙述等关键领域。作者提出了一种模块化方法,通过不同组件执行特定子任务,可以比端到端方法更灵活地实现。论文还引入了一个新的指标 —— 基于 PREFS(Summary Facts 的精确度与召回率评估)来衡量生成摘要的精确度与召回率,并将其分解为原子事实。在最近发布的 SummScreen3D 数据集上测试,该方法比其他模型生成的摘要具有更高的质量,这是通过 ROUGE 评估和新的基于事实的指标得出的。
Mar, 2024