基于稀疏图构建的电影概述
提出了一种基于图的表示学习框架用于视频摘要,通过将输入视频转换为图,从而在图上建立稀疏连接,将视频摘要任务转化为二进制节点分类问题,以捕捉视频帧之间的长程相互作用,同时具有更高的计算效率和内存利用率。
Apr, 2024
本文提出了一种递归图建模网络框架 SumGraph,将视频摘要生成问题转化为了图建模问题,并利用图卷积网络对递归建模过程中的节点进行二分类,从而达到更好的视频摘要效果。经实验证明,该方法在视频摘要领域取得了当前最优效果。
Jul, 2020
通过构建 327 个电影的电影简介关联(Movie Synopses Associations,MSA)数据集,以及开发一套能够识别电影片段并且和简介段落进行精准匹配的框架,本研究指出利用文学结构和人物互动来提高匹配精度是非常重要的,相较于传统的特征匹配方法,这种基于图形的综合匹配策略能够在电影理解领域有实质性的提升。
Oct, 2019
采用协作优化方法,利用视频聚类和主题相关视频提供的视觉背景,同时抓取视频的重要特点和归纳性信息,从而进行视频摘要提取,该方法在两个数据集上的实验证明了其优越性。
Jun, 2017
通过利用电视剧情节回顾的短视频序列,我们介绍了多模态故事摘要,以将观众带入故事的关键时刻。我们提出了一个名为 PlotSnap 的数据集,其中有两部长达 40 分钟的犯罪惊悚电视剧,拥有丰富的回顾和剧集摘要。我们的方法通过将回顾镜头与剧集中的相应子故事进行匹配,从整个剧集中提取多个情节点,采用 TaleSumm 分层模型处理整个剧集,并创建紧凑的镜头和对话表示,并通过启用局部故事组之间的相互作用,为每个视频镜头和对话发言预测重要性分数。我们展示了对故事摘要的全面评估,包括有前途的跨系列泛化。TaleSumm 模型在经典视频摘要基准测试中也显示出良好的结果。
May, 2024
我们提出了场景摘要作为一项新的基于视频的场景理解任务,旨在将一个长视频场景的漫游摘要为一小组在场景中空间多样的帧,它有许多重要的应用场景,如监视、房地产和机器人。我们提出的解决方案是一个由两个阶段组成的自监督流程,名为 SceneSum,第一阶段使用聚类来分割视频序列,结合视觉地点识别(VPR)促进空间多样性,而第二阶段需要从每个簇中选择一个代表性关键帧作为摘要,同时考虑到资源限制,如内存和磁盘空间的限制,另外,如果有基准图像轨迹可用,我们的方法可以轻松增强聚类和关键帧选择的监督损失。在真实世界和模拟数据集上进行的大量实验证明,我们的方法的性能超过了普通视频摘要基线的 50%。
Nov, 2023
本文介绍了一个名为 MovieGraphs 的数据集,用于收集电影片段中的社交情境,并探索了使用这个数据集进行情感识别、交互理解和原因理解的方法和相关研究。
Dec, 2017
通过将序列编码器与图形成分扩展,我们开发了一个框架,旨在处理文本等弱结构化数据中的长距离关系,从而实现对序列的概括。在广泛的评估中,我们展示了这种混合模型的优越性。
Nov, 2018
这篇论文主要研究了如何用模块化方法总结电视节目,涉及人工智能研究中的复杂推理、多模态和长篇叙述等关键领域。作者提出了一种模块化方法,通过不同组件执行特定子任务,可以比端到端方法更灵活地实现。论文还引入了一个新的指标 —— 基于 PREFS(Summary Facts 的精确度与召回率评估)来衡量生成摘要的精确度与召回率,并将其分解为原子事实。在最近发布的 SummScreen3D 数据集上测试,该方法比其他模型生成的摘要具有更高的质量,这是通过 ROUGE 评估和新的基于事实的指标得出的。
Mar, 2024
本研究针对长篇叙述性文章提出了一种基于叙述结构的提取式摘要模型。通过将叙述结构转化为关键节点,导入非监督和监督提取式摘要模型,实验结果表明,潜在节点与 CSI 剧集的重要方面相关,并通过提高提取式算法的完整性和多样性改善了摘要性能。
Apr, 2020