查询导向的抽取式视频摘要
本文讲述了一种基于顺序行列式点过程(SeqDPP)的有监督视频摘要方法,该方法通过概率分布建模多样性。我们提出了一种大边际算法,以解决 SeqDPP 中的曝光偏差问题。同时,我们还设计了一种新的概率分布,当它被集成到 SeqDPP 中时,产生的模型可以接受用户输入期望的摘要长度。此外,我们还扩展了一个视频摘要数据集,并对该数据集进行了广泛的实验比较。
Jul, 2018
该研究利用神经网络诱导的文本视觉语义嵌入空间,将查询相关汇总作为视频帧子集选择问题进行提出,该方法在多个方面优于先前的技术,并引入具有多样性和查询特定相关性标签的新数据集进行模型训练和测试。
May, 2017
本文提出一种基于监督学习的、端到端深度学习的方法,用于生成与文本查询相关联的视频摘要。该方法提出了包括视频摘要控制器、视频摘要生成器和视频摘要输出模块在内的一整套系统,并介绍了一个包含帧级别相关性评分标签的数据集。实验结果表明,文本查询可以控制视频摘要,且可提高模型的性能。
Apr, 2020
视频摘要是一个至关重要的研究领域,旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性,缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估,我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外,我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明,我们的无需训练的框架优于现有的无监督方法,并与最先进的监督方法取得竞争性结果。
Apr, 2024
本文提出了一种基于查询的视频摘要生成方法,通过计算视频镜头与查询之间的相似度,采用包含两个部分的 Convolutional Hierarchical Attention Network 实现了对视觉信息的编码和查询相关性的计算,得到了查询相关的视频摘要。
Jan, 2020
该论文将视频摘要提出了内容为基础的推荐问题,使用可扩展的深度神经网络在显式建模的片段和视频上进行预测,通过场景和动作识别来寻找视频理解任务不同方面之间的相关性,同时讨论音频和视觉特征在总结任务中的影响,并通过数据增强和多任务学习来防止模型过度拟合。该模型最终在 ICCV 2019 CoView Workshop Challenge Track 中获得第一名。
Oct, 2019
基于对人类生成的视频摘要的洞察,本论文提出了一种新的视频摘要方法,该方法利用条件建模的视角,引入多个有意义的随机变量和联合分布来刻画视频摘要的关键组成部分,并利用辅助分布改进模型的训练。设计了条件注意力模块来减轻多模态输入可能导致的性能下降,该方法融合了以上创新设计选择,旨在缩小人工生成和机器生成视频摘要之间的差距。大量实验证明该方法优于现有方法,并在常用视频摘要数据集上实现了最先进的性能。
Nov, 2023
本文提出了一种基于监督的视频摘要方法,该方法利用人类创建的摘要来进行关键帧的视频摘要,同时实现了基于语义信息的子镜头摘要,既降低了计算成本,还提供了定义跨越数帧的子镜头的视觉相似性的更灵活方式。在多项基准测试中进行了广泛评估,并在几个场景中胜过现有方法。
Mar, 2016
本文主要研究视频摘要中的评估方法,并提出了基于视频分割的替代方法,在使用两个知名的基准数据集进行研究时,惊奇地发现随机生成的视频摘要达到了与人类生成的摘要相当甚至更好的性能表现,并且视频分割对性能指标的影响最大。
Mar, 2019