基于注意力机制的视频摘要

Dec, 2018

Summarizing Videos with Attention

Jiri Fajtl, Hajar Sadeghi Sokeh, Vasileios Argyriou, Dorothy Monekosso, Paolo Remagnino

TL;DR提出了一种新的监督学习方法，基于关键帧技术和自注意力机制来实现视频摘要。该方法在两个公认的基准数据集 TvSum 和 SumMe 上取得了新的最佳结果。

Abstract

In this work we propose a novel method for supervised, keyshots based video summarization by applying a conceptually simple and computationally efficient soft, self-attention mechanism. Current state of the art methods leverage bi-directional recurrent networks such as BiLSTM combined

video summarization supervised learning self-attention mechanism benchmarking state-of-the-art

发现论文，激发创造

基于注意力编码器 - 解码器网络的视频摘要

本研究提出了一种名为 AVS 的新颖的基于注意力机制的编码器 - 解码器网络框架，该网络框架使用双向 LSTM 和注意力机制对原始视频帧进行编码和关键帧序列进行解码，实现对有监督视频摘要的问题的解决。经测试发现，该方法在 SumMe 和 TVSum 数据集上的表现明显优于现有方法，在两个数据集上分别从 0.8％到 3％都有了显著的提高。

Aug, 2017

基于自注意力的生成式对抗网络用于无监督视频摘要

本文通过引入自注意力机制和 Transformer 在视频总结中建模时间关系，以无监督的方法通过对抗性学习生成代表性摘要，并提出 SUM-GAN-AED 模型，评估结果表明，使用自我注意力机制作为帧选择机制在 SumMe 上优于现有技术，并在 TVSum 和 COGNIMUSE 上具有接近现有技术的性能。

Jul, 2023

使用全卷积序列网络进行视频摘要

这篇论文探讨了视频摘要的问题，并将其作为一个序列标注问题。优化地选择输入视频的一部分帧以创建一个摘要视频，以最优地捕捉输入视频的重要信息，这提供了一个有用的工具来协助视频检索、浏览等。作者提出使用全卷积序列模型解决视频摘要问题，并通过对普通语义分割网络的改进使之适用于摘要视频的任务。实验结果表明提出的模型具有有效性。

May, 2018

基于条件建模的自动视频摘要

基于对人类生成的视频摘要的洞察，本论文提出了一种新的视频摘要方法，该方法利用条件建模的视角，引入多个有意义的随机变量和联合分布来刻画视频摘要的关键组成部分，并利用辅助分布改进模型的训练。设计了条件注意力模块来减轻多模态输入可能导致的性能下降，该方法融合了以上创新设计选择，旨在缩小人工生成和机器生成视频摘要之间的差距。大量实验证明该方法优于现有方法，并在常用视频摘要数据集上实现了最先进的性能。

Nov, 2023

多源特征无监督视频摘要

本文提出了通过结合多种特征源进行特征融合的视频摘要算法，该算法在两个基准测试数据集 TVSum 和 SumMe 上取得了最新的研究结果，并对以往的研究方法进行了评估，同时进行误差分析以找出导致分类错误的因素。

May, 2021

长短期记忆视频摘要

本文提出了一种针对视频进行自动化重点帧或子镜头选择的新型监督学习技术，其将问题视为顺序数据上的结构化预测问题，主要想法是利用 LSTM（长短时记忆），该专用网络类型可模拟视频摘要任务中包含的可变范围依赖性，详细分析证明了模型设计的合理性，通过引入领域适应技术，我们还介绍了应对训练复杂学习模型所需大量注释数据需求的技术。

May, 2016

无监督视频摘要

该论文介绍了一种利用生成对抗网络的思想进行自动视频摘要的新的无监督方法，消除了鉴别器，使用简单的损失函数，并将模型的不同部分训练分离。采用迭代式训练策略，交替训练重构器和帧选择器多次迭代。此外，该方法在训练和评估期间添加了一个可训练的掩码向量到模型中进行摘要生成。在两个公共数据集 (SumMe 和 TVSum) 和四个我们创建的数据集 (Soccer、LoL、MLB 和 ShortMLB) 上的实验证明了每个组件在模型性能上的有效性，特别是迭代式训练策略。与最先进的方法进行的评估和比较突出了该方法在性能、稳定性和训练效率上的优势。

Nov, 2023

卷积分层注意网络用于查询焦点视频摘要

本文提出了一种基于查询的视频摘要生成方法，通过计算视频镜头与查询之间的相似度，采用包含两个部分的 Convolutional Hierarchical Attention Network 实现了对视觉信息的编码和查询相关性的计算，得到了查询相关的视频摘要。

Jan, 2020

基于多模态自监督学习的渐进式视频摘要技术

本文介绍了一种基于深度神经网络的视频摘要方法，该方法使用了多模态自监督学习框架，该框架可以在不需要大规模标注数据的情况下，通过视频与文本之间的语义一致性来获取视频的语义表示，并提出了一种渐进式摘要方法。实验表明，该方法的排名相关系数和 F 分数均优于现有视频摘要方法。

Jan, 2022

增强上下文感知的视频摘要

视频摘要是一个至关重要的研究领域，旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性，缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估，我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外，我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明，我们的无需训练的框架优于现有的无监督方法，并与最先进的监督方法取得竞争性结果。

Apr, 2024