场景摘要：将场景视频聚类为空间多样帧

Nov, 2023

场景摘要：将场景视频聚类为空间多样帧

Scene Summarization: Clustering Scene Videos into Spatially Diverse Frames

Chao Chen, Mingzhi Zhu, Ankush Pratap Singh, Yu Yan, Felix Juefei Xu...

TL;DR我们提出了场景摘要作为一项新的基于视频的场景理解任务，旨在将一个长视频场景的漫游摘要为一小组在场景中空间多样的帧，它有许多重要的应用场景，如监视、房地产和机器人。我们提出的解决方案是一个由两个阶段组成的自监督流程，名为 SceneSum，第一阶段使用聚类来分割视频序列，结合视觉地点识别（VPR）促进空间多样性，而第二阶段需要从每个簇中选择一个代表性关键帧作为摘要，同时考虑到资源限制，如内存和磁盘空间的限制，另外，如果有基准图像轨迹可用，我们的方法可以轻松增强聚类和关键帧选择的监督损失。在真实世界和模拟数据集上进行的大量实验证明，我们的方法的性能超过了普通视频摘要基线的 50%。

Abstract

We propose scene summarization as a new video-based scene understanding task. It aims to summarize a long video walkthrough of a scene int

scene summarization video-based scene understanding video walkthrough spatial diversity clustering

发现论文，激发创造

综合视频理解：基于内容的视频推荐器设计的视频摘要

该论文将视频摘要提出了内容为基础的推荐问题，使用可扩展的深度神经网络在显式建模的片段和视频上进行预测，通过场景和动作识别来寻找视频理解任务不同方面之间的相关性，同时讨论音频和视觉特征在总结任务中的影响，并通过数据增强和多任务学习来防止模型过度拟合。该模型最终在 ICCV 2019 CoView Workshop Challenge Track 中获得第一名。

Oct, 2019

多视频跨样本摘要中的多样性感知

本文提出了一种无监督的视频多维摘要的方法，使用新颖的多样性感知稀疏优化方法探索了视频之间的互补性，提出了一个能够全面描述整个视频集合的多角度摘要，并且在新的 Tour20 数据集和其他多视图数据集上表现优异，并超越了目前最先进的方法。

Jun, 2017

多源特征无监督视频摘要

本文提出了通过结合多种特征源进行特征融合的视频摘要算法，该算法在两个基准测试数据集 TVSum 和 SumMe 上取得了最新的研究结果，并对以往的研究方法进行了评估，同时进行误差分析以找出导致分类错误的因素。

May, 2021

多场景视频查询和概述的共享语义空间发现

公共空间 CCTV 安装的增长率导致了对自动化利用视频监控数据的方法的需求，包括场景理解、查询、行为注释和摘要。本文提出了一种分布式多场景全局理解的新框架，将监视场景按其解释彼此行为的能力进行聚类，并进一步发现每个聚类中共享与场景特定的活动的子集。在此基础上，我们展示了如何利用多场景结构化表示来改进常见的监控任务，包括场景活动理解、跨场景按示例查询、行为分类和视频摘要。

Jul, 2015

无监督视频摘要的判别式特征学习

本文提出了一种解决自动从输入视频中提取关键镜头的无监督视频摘要问题的方法，并针对我们的经验观察处理了两个关键问题：由于每帧的输出重要性得分是平坦分布的而导致的无效特征学习和处理长视频输入时的训练困难问题。为了缓解第一个问题，我们提出了一个称为方差损失的简单而有效的正则化损失项。对于第二个问题，我们设计了一种新颖的两流网络，名为 “块和步距网络（CSNet）”，它利用了视频特征上的本地（块）和全局（步距）时间视图，针对长视频的摘要结果比现有方法更好。此外，我们还引入了一种注意机制来处理视频中的动态信息。通过进行全面的消融研究，我们证明了所提出方法的有效性，并展示了我们的最终模型在两个基准数据集上实现了新的最优结果。

Nov, 2018

增强上下文感知的视频摘要

视频摘要是一个至关重要的研究领域，旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性，缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估，我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外，我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明，我们的无需训练的框架优于现有的无监督方法，并与最先进的监督方法取得竞争性结果。

Apr, 2024

通过联合嵌入和稀疏优化实现多视角监视视频汇总

介绍一种通过联合嵌入和稀疏代表选择的新颖无监督框架来总结多视角视频，该方法能够提取出多视角视频之间的复杂内部和外部关联，实现高效准确的摘要生成。

Jun, 2017

主题相关视频的协作摘要

采用协作优化方法，利用视频聚类和主题相关视频提供的视觉背景，同时抓取视频的重要特点和归纳性信息，从而进行视频摘要提取，该方法在两个数据集上的实验证明了其优越性。

Jun, 2017

共正则化的深度表示在视频摘要中的应用

本文提出了一种基于卷积神经网络和受限玻尔兹曼机相结合的关键帧摘要框架，使用原始的协同正则化方案发现有意义的主题 - 场景关联，并利用多模态表示选择高度相关的关键帧，经过对比实验表明，该方法在吸引力和信息量方面始终优于基线方案，特别是对于较小的摘要，其优势更为显著。

Jan, 2015

基于知识增强的多角度视频表示学习，用于场景识别

我们提出了一种新颖的双流框架，从多个角度（即时间和非时间角度）建模视频表示，并通过自蒸馏方式将两个角度融合在一起，在视频场景识别任务中自然引入知识。我们的实验结果表明，我们提出的方法是有效的。

Jan, 2024