视频探索的因果关系视频摘要器

Jul, 2023

Causal Video Summarizer for Video Exploration

Jia-Hong Huang, Chao-Han Huck Yang, Pin-Yu Chen, Andrew Brown, Marcel Worring

TL;DR本文提出了基于因果关系的视频摘要器（CVS），它采用了概率编码器和概率解码器来有效地捕捉视频和查询之间的交互信息，从而提高了多模态视频摘要的精度。与现有的方法相比，CVS 的准确度提高了 5.4％，F 1 - 得分提高了 4.92％。

Abstract

Recently, video summarization has been proposed as a method to help video exploration. However, traditional video summarization models only generate a fixed video summary which is usually independent of user-spec

video summarization multi-modal summarization causality-based method probabilistic encoder probabilistic decoder

发现论文，激发创造

因果解释器：自动视频摘要的因果解释

本文提出一种 Causal Explainer 模型，该模型采用多个有意义的随机变量和它们的联合分布来解释视频摘要问题中的关键组件，同时引入辅助分布加强模型训练，在视觉 - 文本输入场景下，采用因果语义抽取器从视觉和文本输入中提取相互信息，实验结果表明，该方法在实现最佳性能的同时更具可解释性。

Apr, 2023

可查询的视频摘要

本文提出一种基于监督学习的、端到端深度学习的方法，用于生成与文本查询相关联的视频摘要。该方法提出了包括视频摘要控制器、视频摘要生成器和视频摘要输出模块在内的一整套系统，并介绍了一个包含帧级别相关性评分标签的数据集。实验结果表明，文本查询可以控制视频摘要，且可提高模型的性能。

Apr, 2020

基于条件建模的自动视频摘要

基于对人类生成的视频摘要的洞察，本论文提出了一种新的视频摘要方法，该方法利用条件建模的视角，引入多个有意义的随机变量和联合分布来刻画视频摘要的关键组成部分，并利用辅助分布改进模型的训练。设计了条件注意力模块来减轻多模态输入可能导致的性能下降，该方法融合了以上创新设计选择，旨在缩小人工生成和机器生成视频摘要之间的差距。大量实验证明该方法优于现有方法，并在常用视频摘要数据集上实现了最先进的性能。

Nov, 2023

包含视频的文档的多模式摘要

本文提出了一种基于文档和相关视频的新型多模态摘要任务，并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型，旨在同时处理文本和视频摘要。实验结果表明，该模型有利于多模态摘要且优于现有方法，同时构建了一个新的文档和视频数据集作为未来研究的资源。

Sep, 2020

VideoXum: 视频的跨模态视觉和文本摘要

我们提出了一个新的联合视频和文本摘要任务，旨在生成一个缩短的视频剪辑和相应的文本摘要，我们通过构建一个大规模的人类注释数据集 - VideXum 来解决此问题，并使用新的度量标准 VT-CLIPScore 来评估跨模态摘要的语义一致性。我们提出的 VTSUM-BILP 模型在此任务上取得了有希望的性能，并为未来研究建立了基准。

Mar, 2023

基于多模态自监督学习的渐进式视频摘要技术

本文介绍了一种基于深度神经网络的视频摘要方法，该方法使用了多模态自监督学习框架，该框架可以在不需要大规模标注数据的情况下，通过视频与文本之间的语义一致性来获取视频的语义表示，并提出了一种渐进式摘要方法。实验表明，该方法的排名相关系数和 F 分数均优于现有视频摘要方法。

Jan, 2022

基于查询的视频摘要：数据集、评估和基于记忆网络的方法

本文提出了一种基于用户偏好查询的视频摘要模型，并利用基于概念注释的评估方法来解决视频摘要的性能评价问题。

Jul, 2017

增强上下文感知的视频摘要

视频摘要是一个至关重要的研究领域，旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性，缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估，我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外，我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明，我们的无需训练的框架优于现有的无监督方法，并与最先进的监督方法取得竞争性结果。

Apr, 2024

IntentVizor：面向通用查询引导的交互式视频摘要

本文介绍 IntentVizor，一种基于多模态查询的交互式视频摘要框架。通过使用我们所提出的一系列意图，我们设计了一个新型交互式视觉分析界面，并使用 GSE-GCN 来提高视频理解的摘要质量。我们针对两个基准数据集进行了实验，并与现有方法进行了比较，验证了该框架的有效性。

Sep, 2021

质量感知相关性估计的查询自适应视频摘要

该研究利用神经网络诱导的文本视觉语义嵌入空间，将查询相关汇总作为视频帧子集选择问题进行提出，该方法在多个方面优于先前的技术，并引入具有多样性和查询特定相关性标签的新数据集进行模型训练和测试。

May, 2017