ILS-SUMM:迭代局部搜索用于非监督视频摘要
通过使用大型语言模型作为引导,本文提出了一种新颖的自监督视频摘要框架,通过生成视频帧的字幕,并将其合成为文本摘要,衡量帧字幕和文本摘要之间的语义距离,最终选择与文本摘要相似的帧来生成摘要视频。该方法在视频摘要任务中取得了有竞争力的结果,并为视频摘要领域开辟了新的道路。
May, 2024
该论文介绍了一种利用生成对抗网络的思想进行自动视频摘要的新的无监督方法,消除了鉴别器,使用简单的损失函数,并将模型的不同部分训练分离。采用迭代式训练策略,交替训练重构器和帧选择器多次迭代。此外,该方法在训练和评估期间添加了一个可训练的掩码向量到模型中进行摘要生成。在两个公共数据集 (SumMe 和 TVSum) 和四个我们创建的数据集 (Soccer、LoL、MLB 和 ShortMLB) 上的实验证明了每个组件在模型性能上的有效性,特别是迭代式训练策略。与最先进的方法进行的评估和比较突出了该方法在性能、稳定性和训练效率上的优势。
Nov, 2023
采用协作优化方法,利用视频聚类和主题相关视频提供的视觉背景,同时抓取视频的重要特点和归纳性信息,从而进行视频摘要提取,该方法在两个数据集上的实验证明了其优越性。
Jun, 2017
本文提出了一种基于监督的视频摘要方法,该方法利用人类创建的摘要来进行关键帧的视频摘要,同时实现了基于语义信息的子镜头摘要,既降低了计算成本,还提供了定义跨越数帧的子镜头的视觉相似性的更灵活方式。在多项基准测试中进行了广泛评估,并在几个场景中胜过现有方法。
Mar, 2016
本文提出了通过结合多种特征源进行特征融合的视频摘要算法,该算法在两个基准测试数据集 TVSum 和 SumMe 上取得了最新的研究结果,并对以往的研究方法进行了评估,同时进行误差分析以找出导致分类错误的因素。
May, 2021
本文提出了一种无监督的视频多维摘要的方法,使用新颖的多样性感知稀疏优化方法探索了视频之间的互补性,提出了一个能够全面描述整个视频集合的多角度摘要,并且在新的 Tour20 数据集和其他多视图数据集上表现优异,并超越了目前最先进的方法。
Jun, 2017
本文提出了一种解决自动从输入视频中提取关键镜头的无监督视频摘要问题的方法,并针对我们的经验观察处理了两个关键问题:由于每帧的输出重要性得分是平坦分布的而导致的无效特征学习和处理长视频输入时的训练困难问题。为了缓解第一个问题,我们提出了一个称为方差损失的简单而有效的正则化损失项。对于第二个问题,我们设计了一种新颖的两流网络,名为 “块和步距网络(CSNet)”,它利用了视频特征上的本地(块)和全局(步距)时间视图,针对长视频的摘要结果比现有方法更好。此外,我们还引入了一种注意机制来处理视频中的动态信息。通过进行全面的消融研究,我们证明了所提出方法的有效性,并展示了我们的最终模型在两个基准数据集上实现了新的最优结果。
Nov, 2018
本文探讨了视频摘要的问题,并提出了一种从未配对数据中学习视视频摘要的方法,该方法使用对抗性目标并对生成的视视频摘要施加多样性限制,实验结果表明该方法显着优于其他替代方法。
May, 2018
介绍一种通过联合嵌入和稀疏代表选择的新颖无监督框架来总结多视角视频,该方法能够提取出多视角视频之间的复杂内部和外部关联,实现高效准确的摘要生成。
Jun, 2017
视频摘要是一个至关重要的研究领域,旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性,缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估,我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外,我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明,我们的无需训练的框架优于现有的无监督方法,并与最先进的监督方法取得竞争性结果。
Apr, 2024