视频总结的多粒度解释集成框架

May, 2024

An Integrated Framework for Multi-Granular Explanation of Video Summarization

Konstantinos Tsigos, Evlampios Apostolidis, Vasileios Mezaris

TL;DR本论文提出了一个综合的视频摘要的多粒度解释框架，通过整合在片段级别和更细粒度的视觉对象级别产生解释的方法，通过使用模型无关的基于扰动的方法来在片段级解释视频摘要结果，并引入了将视频全景分割结果与基于扰动的解释方法相结合的新方法来产生对象级解释。我们对该框架进行了性能评估，使用一种最先进的摘要方法和两个用于基准测试视频摘要的数据集。定量和定性评估的结果表明，我们的框架能够发现视频摘要中最具影响力的片段和视觉对象，并提供了关于摘要过程输出的全面的基于视觉的解释。

Abstract

In this paper, we propose an integrated framework for multi-granular explanation of video summarization. This framework integrates methods

video summarization explanation multi-granular perturbation-based approach visual object level

发现论文，激发创造

视频标题综合信息整合建模框架

为优化电商中消费者生成视频的推荐，我们提出了一种端到端的建模方式，包括综合使用消费者生成视频的内容、评论句子和商品属性，并基于图神经网络实现多粒度视频分析和故事线总结。

Jun, 2020

编辑视频和原始视频摘要的一般框架

本文提出了一个通用的视频摘要框架，可以适用于编辑视频和原始视频的摘要。具体来说，本研究设计了四个模型，用于捕捉视频摘要的特性，包括：重要性、代表性、多样性和故事性。这些模型的权重是以监督学习方式学习的，并且分别用于编辑视频和原始视频。通过测试，实验结果验证了所提出的框架的有效性。

Apr, 2019

基于多模态自监督学习的渐进式视频摘要技术

本文介绍了一种基于深度神经网络的视频摘要方法，该方法使用了多模态自监督学习框架，该框架可以在不需要大规模标注数据的情况下，通过视频与文本之间的语义一致性来获取视频的语义表示，并提出了一种渐进式摘要方法。实验表明，该方法的排名相关系数和 F 分数均优于现有视频摘要方法。

Jan, 2022

增强上下文感知的视频摘要

视频摘要是一个至关重要的研究领域，旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性，缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估，我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外，我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明，我们的无需训练的框架优于现有的无监督方法，并与最先进的监督方法取得竞争性结果。

Apr, 2024

多源特征无监督视频摘要

本文提出了通过结合多种特征源进行特征融合的视频摘要算法，该算法在两个基准测试数据集 TVSum 和 SumMe 上取得了最新的研究结果，并对以往的研究方法进行了评估，同时进行误差分析以找出导致分类错误的因素。

May, 2021

质量感知相关性估计的查询自适应视频摘要

该研究利用神经网络诱导的文本视觉语义嵌入空间，将查询相关汇总作为视频帧子集选择问题进行提出，该方法在多个方面优于先前的技术，并引入具有多样性和查询特定相关性标签的新数据集进行模型训练和测试。

May, 2017

综合视频理解：基于内容的视频推荐器设计的视频摘要

该论文将视频摘要提出了内容为基础的推荐问题，使用可扩展的深度神经网络在显式建模的片段和视频上进行预测，通过场景和动作识别来寻找视频理解任务不同方面之间的相关性，同时讨论音频和视觉特征在总结任务中的影响，并通过数据增强和多任务学习来防止模型过度拟合。该模型最终在 ICCV 2019 CoView Workshop Challenge Track 中获得第一名。

Oct, 2019

通过联合嵌入和稀疏优化实现多视角监视视频汇总

介绍一种通过联合嵌入和稀疏代表选择的新颖无监督框架来总结多视角视频，该方法能够提取出多视角视频之间的复杂内部和外部关联，实现高效准确的摘要生成。

Jun, 2017

利用语言引导的自监督视频摘要生成方法，考虑视频多样性的文本语义匹配

通过使用大型语言模型作为引导，本文提出了一种新颖的自监督视频摘要框架，通过生成视频帧的字幕，并将其合成为文本摘要，衡量帧字幕和文本摘要之间的语义距离，最终选择与文本摘要相似的帧来生成摘要视频。该方法在视频摘要任务中取得了有竞争力的结果，并为视频摘要领域开辟了新的道路。

May, 2024

包含视频的文档的多模式摘要

本文提出了一种基于文档和相关视频的新型多模态摘要任务，并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型，旨在同时处理文本和视频摘要。实验结果表明，该模型有利于多模态摘要且优于现有方法，同时构建了一个新的文档和视频数据集作为未来研究的资源。

Sep, 2020