编辑视频和原始视频摘要的一般框架

Apr, 2019

编辑视频和原始视频摘要的一般框架

A General Framework for Edited Video and Raw Video Summarization

Xuelong Li, Bin Zhao, Xiaoqiang Lu

TL;DR本文提出了一个通用的视频摘要框架，可以适用于编辑视频和原始视频的摘要。具体来说，本研究设计了四个模型，用于捕捉视频摘要的特性，包括：重要性、代表性、多样性和故事性。这些模型的权重是以监督学习方式学习的，并且分别用于编辑视频和原始视频。通过测试，实验结果验证了所提出的框架的有效性。

Abstract

In this paper, we build a general summarization framework for both of edited video and raw video summarization. Overall, our work can be divided into three folds: 1) Four models are designed to capture the properties of video summaries, i.e., containing important people and objects (

video summarization importance representativeness diversity storyness

发现论文，激发创造

基于条件建模的自动视频摘要

基于对人类生成的视频摘要的洞察，本论文提出了一种新的视频摘要方法，该方法利用条件建模的视角，引入多个有意义的随机变量和联合分布来刻画视频摘要的关键组成部分，并利用辅助分布改进模型的训练。设计了条件注意力模块来减轻多模态输入可能导致的性能下降，该方法融合了以上创新设计选择，旨在缩小人工生成和机器生成视频摘要之间的差距。大量实验证明该方法优于现有方法，并在常用视频摘要数据集上实现了最先进的性能。

Nov, 2023

重新思考视频摘要的评估

本文主要研究视频摘要中的评估方法，并提出了基于视频分割的替代方法，在使用两个知名的基准数据集进行研究时，惊奇地发现随机生成的视频摘要达到了与人类生成的摘要相当甚至更好的性能表现，并且视频分割对性能指标的影响最大。

Mar, 2019

多源特征无监督视频摘要

本文提出了通过结合多种特征源进行特征融合的视频摘要算法，该算法在两个基准测试数据集 TVSum 和 SumMe 上取得了最新的研究结果，并对以往的研究方法进行了评估，同时进行误差分析以找出导致分类错误的因素。

May, 2021

综合视频理解：基于内容的视频推荐器设计的视频摘要

该论文将视频摘要提出了内容为基础的推荐问题，使用可扩展的深度神经网络在显式建模的片段和视频上进行预测，通过场景和动作识别来寻找视频理解任务不同方面之间的相关性，同时讨论音频和视觉特征在总结任务中的影响，并通过数据增强和多任务学习来防止模型过度拟合。该模型最终在 ICCV 2019 CoView Workshop Challenge Track 中获得第一名。

Oct, 2019

视频总结的多粒度解释集成框架

本论文提出了一个综合的视频摘要的多粒度解释框架，通过整合在片段级别和更细粒度的视觉对象级别产生解释的方法，通过使用模型无关的基于扰动的方法来在片段级解释视频摘要结果，并引入了将视频全景分割结果与基于扰动的解释方法相结合的新方法来产生对象级解释。我们对该框架进行了性能评估，使用一种最先进的摘要方法和两个用于基准测试视频摘要的数据集。定量和定性评估的结果表明，我们的框架能够发现视频摘要中最具影响力的片段和视觉对象，并提供了关于摘要过程输出的全面的基于视觉的解释。

May, 2024

增强上下文感知的视频摘要

视频摘要是一个至关重要的研究领域，旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性，缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估，我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外，我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明，我们的无需训练的框架优于现有的无监督方法，并与最先进的监督方法取得竞争性结果。

Apr, 2024

多视频跨样本摘要中的多样性感知

本文提出了一种无监督的视频多维摘要的方法，使用新颖的多样性感知稀疏优化方法探索了视频之间的互补性，提出了一个能够全面描述整个视频集合的多角度摘要，并且在新的 Tour20 数据集和其他多视图数据集上表现优异，并超越了目前最先进的方法。

Jun, 2017

共正则化的深度表示在视频摘要中的应用

本文提出了一种基于卷积神经网络和受限玻尔兹曼机相结合的关键帧摘要框架，使用原始的协同正则化方案发现有意义的主题 - 场景关联，并利用多模态表示选择高度相关的关键帧，经过对比实验表明，该方法在吸引力和信息量方面始终优于基线方案，特别是对于较小的摘要，其优势更为显著。

Jan, 2015

基于示例的子集选择视频摘要技术

本文提出了一种基于监督的视频摘要方法，该方法利用人类创建的摘要来进行关键帧的视频摘要，同时实现了基于语义信息的子镜头摘要，既降低了计算成本，还提供了定义跨越数帧的子镜头的视觉相似性的更灵活方式。在多项基准测试中进行了广泛评估，并在几个场景中胜过现有方法。

Mar, 2016

质量感知相关性估计的查询自适应视频摘要

该研究利用神经网络诱导的文本视觉语义嵌入空间，将查询相关汇总作为视频帧子集选择问题进行提出，该方法在多个方面优于先前的技术，并引入具有多样性和查询特定相关性标签的新数据集进行模型训练和测试。

May, 2017