使用全卷积序列网络进行视频摘要

ECCVMay, 2018

使用全卷积序列网络进行视频摘要

Video Summarization Using Fully Convolutional Sequence Networks

Mrigank Rochan, Linwei Ye, Yang Wang

TL;DR这篇论文探讨了视频摘要的问题，并将其作为一个序列标注问题。优化地选择输入视频的一部分帧以创建一个摘要视频，以最优地捕捉输入视频的重要信息，这提供了一个有用的工具来协助视频检索、浏览等。作者提出使用全卷积序列模型解决视频摘要问题，并通过对普通语义分割网络的改进使之适用于摘要视频的任务。实验结果表明提出的模型具有有效性。

Abstract

This paper addresses the problem of video summarization. Given an input video, the goal is to select a subset of the frames to create a summary video that optimally captures the important information of the input video. With the large amount of videos available online, →

video summarization frames selection sequence labeling fully convolutional sequence models semantic segmentation

发现论文，激发创造

综合视频理解：基于内容的视频推荐器设计的视频摘要

该论文将视频摘要提出了内容为基础的推荐问题，使用可扩展的深度神经网络在显式建模的片段和视频上进行预测，通过场景和动作识别来寻找视频理解任务不同方面之间的相关性，同时讨论音频和视觉特征在总结任务中的影响，并通过数据增强和多任务学习来防止模型过度拟合。该模型最终在 ICCV 2019 CoView Workshop Challenge Track 中获得第一名。

Oct, 2019

基于注意力编码器 - 解码器网络的视频摘要

本研究提出了一种名为 AVS 的新颖的基于注意力机制的编码器 - 解码器网络框架，该网络框架使用双向 LSTM 和注意力机制对原始视频帧进行编码和关键帧序列进行解码，实现对有监督视频摘要的问题的解决。经测试发现，该方法在 SumMe 和 TVSum 数据集上的表现明显优于现有方法，在两个数据集上分别从 0.8％到 3％都有了显著的提高。

Aug, 2017

基于注意力机制的视频摘要

提出了一种新的监督学习方法，基于关键帧技术和自注意力机制来实现视频摘要。该方法在两个公认的基准数据集 TvSum 和 SumMe 上取得了新的最佳结果。

Dec, 2018

使用深度语义特征的视频摘要

该论文提出了一种基于深度视频特征和聚类的视频摘要技术，旨在更高效地生成互联网视频的概览，该技术通过设计一种映射视频和描述的深度神经网络来将视频元素转化为语义空间。

Sep, 2016

基于多模态自监督学习的渐进式视频摘要技术

本文介绍了一种基于深度神经网络的视频摘要方法，该方法使用了多模态自监督学习框架，该框架可以在不需要大规模标注数据的情况下，通过视频与文本之间的语义一致性来获取视频的语义表示，并提出了一种渐进式摘要方法。实验表明，该方法的排名相关系数和 F 分数均优于现有视频摘要方法。

Jan, 2022

基于 CNN 的视频帧重要性预测与摘要

本文提出了一种基于卷积神经网络的用户定向视频摘要生成方法，与传统的基于手工特征的方法相比，通过离线训练得到的权重和偏差使得该系统可以几乎实时地提取视频帧的重要性，实验结果表明该方法在估计视频镜头重要性方面表现优异。

Aug, 2017

无监督视频摘要

该论文介绍了一种利用生成对抗网络的思想进行自动视频摘要的新的无监督方法，消除了鉴别器，使用简单的损失函数，并将模型的不同部分训练分离。采用迭代式训练策略，交替训练重构器和帧选择器多次迭代。此外，该方法在训练和评估期间添加了一个可训练的掩码向量到模型中进行摘要生成。在两个公共数据集 (SumMe 和 TVSum) 和四个我们创建的数据集 (Soccer、LoL、MLB 和 ShortMLB) 上的实验证明了每个组件在模型性能上的有效性，特别是迭代式训练策略。与最先进的方法进行的评估和比较突出了该方法在性能、稳定性和训练效率上的优势。

Nov, 2023

基于条件建模的自动视频摘要

基于对人类生成的视频摘要的洞察，本论文提出了一种新的视频摘要方法，该方法利用条件建模的视角，引入多个有意义的随机变量和联合分布来刻画视频摘要的关键组成部分，并利用辅助分布改进模型的训练。设计了条件注意力模块来减轻多模态输入可能导致的性能下降，该方法融合了以上创新设计选择，旨在缩小人工生成和机器生成视频摘要之间的差距。大量实验证明该方法优于现有方法，并在常用视频摘要数据集上实现了最先进的性能。

Nov, 2023

无监督视频摘要的判别式特征学习

本文提出了一种解决自动从输入视频中提取关键镜头的无监督视频摘要问题的方法，并针对我们的经验观察处理了两个关键问题：由于每帧的输出重要性得分是平坦分布的而导致的无效特征学习和处理长视频输入时的训练困难问题。为了缓解第一个问题，我们提出了一个称为方差损失的简单而有效的正则化损失项。对于第二个问题，我们设计了一种新颖的两流网络，名为 “块和步距网络（CSNet）”，它利用了视频特征上的本地（块）和全局（步距）时间视图，针对长视频的摘要结果比现有方法更好。此外，我们还引入了一种注意机制来处理视频中的动态信息。通过进行全面的消融研究，我们证明了所提出方法的有效性，并展示了我们的最终模型在两个基准数据集上实现了新的最优结果。

Nov, 2018

卷积分层注意网络用于查询焦点视频摘要

本文提出了一种基于查询的视频摘要生成方法，通过计算视频镜头与查询之间的相似度，采用包含两个部分的 Convolutional Hierarchical Attention Network 实现了对视觉信息的编码和查询相关性的计算，得到了查询相关的视频摘要。

Jan, 2020