Cycle-SUM:基于循环一致对抗 LSTM 网络的无监督视频摘要
该论文介绍了一种利用生成对抗网络的思想进行自动视频摘要的新的无监督方法,消除了鉴别器,使用简单的损失函数,并将模型的不同部分训练分离。采用迭代式训练策略,交替训练重构器和帧选择器多次迭代。此外,该方法在训练和评估期间添加了一个可训练的掩码向量到模型中进行摘要生成。在两个公共数据集 (SumMe 和 TVSum) 和四个我们创建的数据集 (Soccer、LoL、MLB 和 ShortMLB) 上的实验证明了每个组件在模型性能上的有效性,特别是迭代式训练策略。与最先进的方法进行的评估和比较突出了该方法在性能、稳定性和训练效率上的优势。
Nov, 2023
本文通过引入自注意力机制和 Transformer 在视频总结中建模时间关系,以无监督的方法通过对抗性学习生成代表性摘要,并提出 SUM-GAN-AED 模型,评估结果表明,使用自我注意力机制作为帧选择机制在 SumMe 上优于现有技术,并在 TVSum 和 COGNIMUSE 上具有接近现有技术的性能。
Jul, 2023
提出了一种采用增强学习的无监督视频摘要新方法,通过引入生成 - 判别器体系结构的不稳定训练和依赖手工制定的质量评估奖励函数等问题,改进无监督方法,使其产生与原始视频密切相似的精炼信息摘要。通过采用特殊的奖励生成流程,通过强化学习调训摘要模型的方式,生成模型可以从被部分覆盖的视频中重建部分帧,并将重建的摘要视频与原始视频进行比较。实验结果表明,该训练流程生成的摘要模型较之于依赖手工制定奖励的方法更好地模仿人工生成的摘要视频,其 F 值在 TVSum 和 SumMe 数据集上分别为 62.3 和 54.5。此外,该方法在推理阶段的速度比先前报道的最先进方法快 300 倍。
Jul, 2024
本研究提出了一种名为 AVS 的新颖的基于注意力机制的编码器 - 解码器网络框架,该网络框架使用双向 LSTM 和注意力机制对原始视频帧进行编码和关键帧序列进行解码,实现对有监督视频摘要的问题的解决。经测试发现,该方法在 SumMe 和 TVSum 数据集上的表现明显优于现有方法,在两个数据集上分别从 0.8%到 3%都有了显著的提高。
Aug, 2017
这篇论文探讨了视频摘要的问题,并将其作为一个序列标注问题。优化地选择输入视频的一部分帧以创建一个摘要视频,以最优地捕捉输入视频的重要信息,这提供了一个有用的工具来协助视频检索、浏览等。作者提出使用全卷积序列模型解决视频摘要问题,并通过对普通语义分割网络的改进使之适用于摘要视频的任务。实验结果表明提出的模型具有有效性。
May, 2018
提出了一种基于缩略图容器的轻量级视频摘要 (LTC-SUM) 框架,使用终端用户设备的计算资源为并发用户生成个性化关键帧摘要。通过在缩略图中设计轻量级 2D CNN 模型仅提取特定的视频片段,实现了普适性和隐私保护,提高了通信和存储效率,相比同等终端设备,改进后的 LTC-SUM 方法在视频摘要任务上经验证是更加高效的。
Jan, 2022
本文提出了一种针对视频进行自动化重点帧或子镜头选择的新型监督学习技术,其将问题视为顺序数据上的结构化预测问题,主要想法是利用 LSTM(长短时记忆),该专用网络类型可模拟视频摘要任务中包含的可变范围依赖性,详细分析证明了模型设计的合理性,通过引入领域适应技术,我们还介绍了应对训练复杂学习模型所需大量注释数据需求的技术。
May, 2016
提出了一种基于自监督训练的计算机视觉方法,通过结合视觉和语言的时间循环一致性来学习模型预测未来和过去的动态变化,并可应用于不同任务,如动作预测和图像排序。
Jan, 2021
本文提出了一种递归图建模网络框架 SumGraph,将视频摘要生成问题转化为了图建模问题,并利用图卷积网络对递归建模过程中的节点进行二分类,从而达到更好的视频摘要效果。经实验证明,该方法在视频摘要领域取得了当前最优效果。
Jul, 2020
本文提出了一种解决自动从输入视频中提取关键镜头的无监督视频摘要问题的方法,并针对我们的经验观察处理了两个关键问题:由于每帧的输出重要性得分是平坦分布的而导致的无效特征学习和处理长视频输入时的训练困难问题。为了缓解第一个问题,我们提出了一个称为方差损失的简单而有效的正则化损失项。对于第二个问题,我们设计了一种新颖的两流网络,名为 “块和步距网络(CSNet)”,它利用了视频特征上的本地(块)和全局(步距)时间视图,针对长视频的摘要结果比现有方法更好。此外,我们还引入了一种注意机制来处理视频中的动态信息。通过进行全面的消融研究,我们证明了所提出方法的有效性,并展示了我们的最终模型在两个基准数据集上实现了新的最优结果。
Nov, 2018