VideoSAGE: 利用图表示学习进行视频摘要

Apr, 2024

VideoSAGE: 利用图表示学习进行视频摘要

VideoSAGE: Video Summarization with Graph Representation Learning

Jose M. Rojas Chaves, Subarna Tripathi

TL;DR提出了一种基于图的表示学习框架用于视频摘要，通过将输入视频转换为图，从而在图上建立稀疏连接，将视频摘要任务转化为二进制节点分类问题，以捕捉视频帧之间的长程相互作用，同时具有更高的计算效率和内存利用率。

Abstract

We propose a graph-based representation learning framework for video summarization. First, we convert an input video to a graph where nodes correspond to each of the video frames. Then, we impose sparsity on the graph by connecting only those pairs of nodes that are within a specified

graph-based representation learning video summarization node classification long-range interactions efficient compute time and memory

发现论文，激发创造

递归图建模实现视频摘要的 SumGraph 算法

本文提出了一种递归图建模网络框架 SumGraph，将视频摘要生成问题转化为了图建模问题，并利用图卷积网络对递归建模过程中的节点进行二分类，从而达到更好的视频摘要效果。经实验证明，该方法在视频摘要领域取得了当前最优效果。

Jul, 2020

GraphVid: 仅需少数节点即可理解视频

本研究提出了一种基于超像素的图形表示方法，并应用图卷积网络进行处理，以实现视频图像的有效表示和处理。通过降低参数数量并减少计算量，该方法可以显著提高计算资源的利用率并实现相关领域技术的有效应用。

Jul, 2022

基于稀疏图构建的电影概述

使用多模态信息构建稀疏电影图来识别电影中的转折点，从而创建比基于序列模型和通用概括算法更具信息量和完整性的电影概括。

Dec, 2020

用于视频摘要的重建序列图网络

提出了一种基于 Reconstructive Sequence-Graph Network 的视频摘要算法，该算法通过在长短时记忆和图卷积网络中编码帧和镜头之间的依赖关系并利用重构损失函数，可以用于无监督学习，其通过在 SumMe，TVsum 和 VTW 等数据集上的实验证明了其在摘要任务中的优异性能。

May, 2021

综合视频理解：基于内容的视频推荐器设计的视频摘要

该论文将视频摘要提出了内容为基础的推荐问题，使用可扩展的深度神经网络在显式建模的片段和视频上进行预测，通过场景和动作识别来寻找视频理解任务不同方面之间的相关性，同时讨论音频和视觉特征在总结任务中的影响，并通过数据增强和多任务学习来防止模型过度拟合。该模型最终在 ICCV 2019 CoView Workshop Challenge Track 中获得第一名。

Oct, 2019

结构化神经网络摘要

通过将序列编码器与图形成分扩展，我们开发了一个框架，旨在处理文本等弱结构化数据中的长距离关系，从而实现对序列的概括。在广泛的评估中，我们展示了这种混合模型的优越性。

Nov, 2018

基于视觉符号图的视频理解表示学习

本文提出了一种基于两个图的模型，其中节点对应于演员和物体，边编码不同类型的交互，通过图神经网络在结果混合图上优化演员、物体及其交互的表示，该方法在 Charades 数据集上实现了最先进的效果，用于解决有关视频理解的挑战性任务，如时间动作定位。

May, 2019

使用全卷积序列网络进行视频摘要

这篇论文探讨了视频摘要的问题，并将其作为一个序列标注问题。优化地选择输入视频的一部分帧以创建一个摘要视频，以最优地捕捉输入视频的重要信息，这提供了一个有用的工具来协助视频检索、浏览等。作者提出使用全卷积序列模型解决视频摘要问题，并通过对普通语义分割网络的改进使之适用于摘要视频的任务。实验结果表明提出的模型具有有效性。

May, 2018

通过联合嵌入和稀疏优化实现多视角监视视频汇总

介绍一种通过联合嵌入和稀疏代表选择的新颖无监督框架来总结多视角视频，该方法能够提取出多视角视频之间的复杂内部和外部关联，实现高效准确的摘要生成。

Jun, 2017

无监督视频摘要

该论文介绍了一种利用生成对抗网络的思想进行自动视频摘要的新的无监督方法，消除了鉴别器，使用简单的损失函数，并将模型的不同部分训练分离。采用迭代式训练策略，交替训练重构器和帧选择器多次迭代。此外，该方法在训练和评估期间添加了一个可训练的掩码向量到模型中进行摘要生成。在两个公共数据集 (SumMe 和 TVSum) 和四个我们创建的数据集 (Soccer、LoL、MLB 和 ShortMLB) 上的实验证明了每个组件在模型性能上的有效性，特别是迭代式训练策略。与最先进的方法进行的评估和比较突出了该方法在性能、稳定性和训练效率上的优势。

Nov, 2023