使用全卷积序列网络进行视频摘要
该论文将视频摘要提出了内容为基础的推荐问题,使用可扩展的深度神经网络在显式建模的片段和视频上进行预测,通过场景和动作识别来寻找视频理解任务不同方面之间的相关性,同时讨论音频和视觉特征在总结任务中的影响,并通过数据增强和多任务学习来防止模型过度拟合。该模型最终在 ICCV 2019 CoView Workshop Challenge Track 中获得第一名。
Oct, 2019
本研究提出了一种名为 AVS 的新颖的基于注意力机制的编码器 - 解码器网络框架,该网络框架使用双向 LSTM 和注意力机制对原始视频帧进行编码和关键帧序列进行解码,实现对有监督视频摘要的问题的解决。经测试发现,该方法在 SumMe 和 TVSum 数据集上的表现明显优于现有方法,在两个数据集上分别从 0.8%到 3%都有了显著的提高。
Aug, 2017
该论文提出了一种基于深度视频特征和聚类的视频摘要技术,旨在更高效地生成互联网视频的概览,该技术通过设计一种映射视频和描述的深度神经网络来将视频元素转化为语义空间。
Sep, 2016
本文介绍了一种基于深度神经网络的视频摘要方法,该方法使用了多模态自监督学习框架,该框架可以在不需要大规模标注数据的情况下,通过视频与文本之间的语义一致性来获取视频的语义表示,并提出了一种渐进式摘要方法。实验表明,该方法的排名相关系数和 F 分数均优于现有视频摘要方法。
Jan, 2022
本文提出了一种基于卷积神经网络的用户定向视频摘要生成方法,与传统的基于手工特征的方法相比,通过离线训练得到的权重和偏差使得该系统可以几乎实时地提取视频帧的重要性,实验结果表明该方法在估计视频镜头重要性方面表现优异。
Aug, 2017
该论文介绍了一种利用生成对抗网络的思想进行自动视频摘要的新的无监督方法,消除了鉴别器,使用简单的损失函数,并将模型的不同部分训练分离。采用迭代式训练策略,交替训练重构器和帧选择器多次迭代。此外,该方法在训练和评估期间添加了一个可训练的掩码向量到模型中进行摘要生成。在两个公共数据集 (SumMe 和 TVSum) 和四个我们创建的数据集 (Soccer、LoL、MLB 和 ShortMLB) 上的实验证明了每个组件在模型性能上的有效性,特别是迭代式训练策略。与最先进的方法进行的评估和比较突出了该方法在性能、稳定性和训练效率上的优势。
Nov, 2023
基于对人类生成的视频摘要的洞察,本论文提出了一种新的视频摘要方法,该方法利用条件建模的视角,引入多个有意义的随机变量和联合分布来刻画视频摘要的关键组成部分,并利用辅助分布改进模型的训练。设计了条件注意力模块来减轻多模态输入可能导致的性能下降,该方法融合了以上创新设计选择,旨在缩小人工生成和机器生成视频摘要之间的差距。大量实验证明该方法优于现有方法,并在常用视频摘要数据集上实现了最先进的性能。
Nov, 2023
本文提出了一种解决自动从输入视频中提取关键镜头的无监督视频摘要问题的方法,并针对我们的经验观察处理了两个关键问题:由于每帧的输出重要性得分是平坦分布的而导致的无效特征学习和处理长视频输入时的训练困难问题。为了缓解第一个问题,我们提出了一个称为方差损失的简单而有效的正则化损失项。对于第二个问题,我们设计了一种新颖的两流网络,名为 “块和步距网络(CSNet)”,它利用了视频特征上的本地(块)和全局(步距)时间视图,针对长视频的摘要结果比现有方法更好。此外,我们还引入了一种注意机制来处理视频中的动态信息。通过进行全面的消融研究,我们证明了所提出方法的有效性,并展示了我们的最终模型在两个基准数据集上实现了新的最优结果。
Nov, 2018
本文提出了一种基于查询的视频摘要生成方法,通过计算视频镜头与查询之间的相似度,采用包含两个部分的 Convolutional Hierarchical Attention Network 实现了对视觉信息的编码和查询相关性的计算,得到了查询相关的视频摘要。
Jan, 2020