基于自注意力的生成式对抗网络用于无监督视频摘要

Jul, 2023

基于自注意力的生成式对抗网络用于无监督视频摘要

Self-Attention Based Generative Adversarial Networks For Unsupervised Video Summarization

Maria Nektaria Minaidi, Charilaos Papaioannou, Alexandros Potamianos

TL;DR本文通过引入自注意力机制和 Transformer 在视频总结中建模时间关系，以无监督的方法通过对抗性学习生成代表性摘要，并提出 SUM-GAN-AED 模型，评估结果表明，使用自我注意力机制作为帧选择机制在 SumMe 上优于现有技术，并在 TVSum 和 COGNIMUSE 上具有接近现有技术的性能。

Abstract

In this paper, we study the problem of producing a comprehensive video summary following an unsupervised approach that relies on adversarial learning. We build on a popular method where a Generative Adversarial N

video summarization unsupervised approach adversarial learning self-attention mechanism transformer

发现论文，激发创造

无监督视频摘要

该论文介绍了一种利用生成对抗网络的思想进行自动视频摘要的新的无监督方法，消除了鉴别器，使用简单的损失函数，并将模型的不同部分训练分离。采用迭代式训练策略，交替训练重构器和帧选择器多次迭代。此外，该方法在训练和评估期间添加了一个可训练的掩码向量到模型中进行摘要生成。在两个公共数据集 (SumMe 和 TVSum) 和四个我们创建的数据集 (Soccer、LoL、MLB 和 ShortMLB) 上的实验证明了每个组件在模型性能上的有效性，特别是迭代式训练策略。与最先进的方法进行的评估和比较突出了该方法在性能、稳定性和训练效率上的优势。

Nov, 2023

基于注意力编码器 - 解码器网络的视频摘要

本研究提出了一种名为 AVS 的新颖的基于注意力机制的编码器 - 解码器网络框架，该网络框架使用双向 LSTM 和注意力机制对原始视频帧进行编码和关键帧序列进行解码，实现对有监督视频摘要的问题的解决。经测试发现，该方法在 SumMe 和 TVSum 数据集上的表现明显优于现有方法，在两个数据集上分别从 0.8％到 3％都有了显著的提高。

Aug, 2017

基于注意力机制的视频摘要

提出了一种新的监督学习方法，基于关键帧技术和自注意力机制来实现视频摘要。该方法在两个公认的基准数据集 TvSum 和 SumMe 上取得了新的最佳结果。

Dec, 2018

一种简单有效的注意力生成对抗网络基准模型

通过改进背骨网络和损失集成方法提出了 SEAttnGAN，它是一种高质量图像到文本模型，可以通过引导生成模型来提高其性能和质量。

Jun, 2023

Cycle-SUM：基于循环一致对抗 LSTM 网络的无监督视频摘要

本文提出了一种新颖的无监督视频摘要模型 ——Cycle-SUM，采用了一种新的循环一致的对抗 LSTM 架构，能够有效地实现摘要视频的信息保存和紧凑性，其中包括一个帧选择器和一个基于循环一致性学习的可学习信息保存度量。

Apr, 2019

基于注意力引导的生成对抗网络的无监督图像转换

本文提出了基于注意力机制的生成对抗网络 AGGAN，在生成图像时使用内置的注意力机制检测最具有辨别性的语义部分并最小化不需要的部分的变化，训练过程中同时考虑对抗损失、循环一致性损失、像素损失和注意力损失，实验表明 AGGAN 比现有模型能够生成更加清晰和准确的图像。

Mar, 2019

扩张时序关系对抗网络用于通用视频摘要

通过新的 DTR-GAN 框架，结合了时序动态关系、多尺度全局上下文信息和对抗学习等技术，实现视频的帧级别摘要，且在三个公共数据集上验证了其在视频理解上的有效性。

Apr, 2018

无监督视频摘要的遮蔽自动编码器

本文提出了一种基于自监督学习的无监督自编码器视频摘要方法，无需其他下游架构或微调权重即可实现摘要。该方法利用解码器的重构分数来评估每帧的重要性得分，并通过实验表明其在各种实验环境下均具有有效性。

Jun, 2023

自注意力生成对抗网络

本文介绍了一种基于自注意力机制的生成对抗网络（SAGAN），它能够在图像生成任务中实现关注驱动的远距离依赖关系建模，并通过对 GAN 生成器实施谱归一化技术，取得了对图像生成任务来说最好的表现。

May, 2018

基于多模态自监督学习的渐进式视频摘要技术

本文介绍了一种基于深度神经网络的视频摘要方法，该方法使用了多模态自监督学习框架，该框架可以在不需要大规模标注数据的情况下，通过视频与文本之间的语义一致性来获取视频的语义表示，并提出了一种渐进式摘要方法。实验表明，该方法的排名相关系数和 F 分数均优于现有视频摘要方法。

Jan, 2022