通过联合嵌入和稀疏优化实现多视角监视视频汇总
本文提出了一种无监督的视频多维摘要的方法,使用新颖的多样性感知稀疏优化方法探索了视频之间的互补性,提出了一个能够全面描述整个视频集合的多角度摘要,并且在新的 Tour20 数据集和其他多视图数据集上表现优异,并超越了目前最先进的方法。
Jun, 2017
本文为解决多视角视频摘要问题,提出了一种基于多视角度量学习框架,结合最大间隔聚类和不一致性最小化准则的系统性解决方案。通过实验验证,证明了该方法的有效性.
May, 2014
本文提出了通过结合多种特征源进行特征融合的视频摘要算法,该算法在两个基准测试数据集 TVSum 和 SumMe 上取得了最新的研究结果,并对以往的研究方法进行了评估,同时进行误差分析以找出导致分类错误的因素。
May, 2021
采用协作优化方法,利用视频聚类和主题相关视频提供的视觉背景,同时抓取视频的重要特点和归纳性信息,从而进行视频摘要提取,该方法在两个数据集上的实验证明了其优越性。
Jun, 2017
本文介绍了一种基于深度神经网络的视频摘要方法,该方法使用了多模态自监督学习框架,该框架可以在不需要大规模标注数据的情况下,通过视频与文本之间的语义一致性来获取视频的语义表示,并提出了一种渐进式摘要方法。实验表明,该方法的排名相关系数和 F 分数均优于现有视频摘要方法。
Jan, 2022
该研究利用神经网络诱导的文本视觉语义嵌入空间,将查询相关汇总作为视频帧子集选择问题进行提出,该方法在多个方面优于先前的技术,并引入具有多样性和查询特定相关性标签的新数据集进行模型训练和测试。
May, 2017
视频摘要是一个至关重要的研究领域,旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性,缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估,我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外,我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明,我们的无需训练的框架优于现有的无监督方法,并与最先进的监督方法取得竞争性结果。
Apr, 2024
基于对人类生成的视频摘要的洞察,本论文提出了一种新的视频摘要方法,该方法利用条件建模的视角,引入多个有意义的随机变量和联合分布来刻画视频摘要的关键组成部分,并利用辅助分布改进模型的训练。设计了条件注意力模块来减轻多模态输入可能导致的性能下降,该方法融合了以上创新设计选择,旨在缩小人工生成和机器生成视频摘要之间的差距。大量实验证明该方法优于现有方法,并在常用视频摘要数据集上实现了最先进的性能。
Nov, 2023
本文提出了一种基于卷积神经网络和受限玻尔兹曼机相结合的关键帧摘要框架,使用原始的协同正则化方案发现有意义的主题 - 场景关联,并利用多模态表示选择高度相关的关键帧,经过对比实验表明,该方法在吸引力和信息量方面始终优于基线方案,特别是对于较小的摘要,其优势更为显著。
Jan, 2015
该论文介绍了一种利用生成对抗网络的思想进行自动视频摘要的新的无监督方法,消除了鉴别器,使用简单的损失函数,并将模型的不同部分训练分离。采用迭代式训练策略,交替训练重构器和帧选择器多次迭代。此外,该方法在训练和评估期间添加了一个可训练的掩码向量到模型中进行摘要生成。在两个公共数据集 (SumMe 和 TVSum) 和四个我们创建的数据集 (Soccer、LoL、MLB 和 ShortMLB) 上的实验证明了每个组件在模型性能上的有效性,特别是迭代式训练策略。与最先进的方法进行的评估和比较突出了该方法在性能、稳定性和训练效率上的优势。
Nov, 2023