重新思考视频摘要的评估

CVPRMar, 2019

Rethinking the Evaluation of Video Summaries

Mayu Otani, Yuta Nakashima, Esa Rahtu, Janne Heikkilä

TL;DR本文主要研究视频摘要中的评估方法，并提出了基于视频分割的替代方法，在使用两个知名的基准数据集进行研究时，惊奇地发现随机生成的视频摘要达到了与人类生成的摘要相当甚至更好的性能表现，并且视频分割对性能指标的影响最大。

Abstract

video summarization is a technique to create a short skim of the original video while preserving the main stories/content. There exists a substantial interest in automatizing this process due to the rapid growth of the available material. The recent progress has been facilitated by pub

video summarization benchmark datasets evaluation protocol random summaries video segmentation

发现论文，激发创造

增强上下文感知的视频摘要

视频摘要是一个至关重要的研究领域，旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性，缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估，我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外，我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明，我们的无需训练的框架优于现有的无监督方法，并与最先进的监督方法取得竞争性结果。

Apr, 2024

基于条件建模的自动视频摘要

基于对人类生成的视频摘要的洞察，本论文提出了一种新的视频摘要方法，该方法利用条件建模的视角，引入多个有意义的随机变量和联合分布来刻画视频摘要的关键组成部分，并利用辅助分布改进模型的训练。设计了条件注意力模块来减轻多模态输入可能导致的性能下降，该方法融合了以上创新设计选择，旨在缩小人工生成和机器生成视频摘要之间的差距。大量实验证明该方法优于现有方法，并在常用视频摘要数据集上实现了最先进的性能。

Nov, 2023

多源特征无监督视频摘要

本文提出了通过结合多种特征源进行特征融合的视频摘要算法，该算法在两个基准测试数据集 TVSum 和 SumMe 上取得了最新的研究结果，并对以往的研究方法进行了评估，同时进行误差分析以找出导致分类错误的因素。

May, 2021

综合视频理解：基于内容的视频推荐器设计的视频摘要

该论文将视频摘要提出了内容为基础的推荐问题，使用可扩展的深度神经网络在显式建模的片段和视频上进行预测，通过场景和动作识别来寻找视频理解任务不同方面之间的相关性，同时讨论音频和视觉特征在总结任务中的影响，并通过数据增强和多任务学习来防止模型过度拟合。该模型最终在 ICCV 2019 CoView Workshop Challenge Track 中获得第一名。

Oct, 2019

使用任务相关性和跨模态显著性总结教学视频

本文使用伪摘要的方法，提出了一种结合上下文感知时态视频编码器和片段评分转换器的教学视频摘要网络，并将其应用于 WikiHow Summaries 数据集。结果表明，该模型在教学视频摘要方面显著优于各基准和最先进的视频摘要模型。

Aug, 2022

基于示例的子集选择视频摘要技术

本文提出了一种基于监督的视频摘要方法，该方法利用人类创建的摘要来进行关键帧的视频摘要，同时实现了基于语义信息的子镜头摘要，既降低了计算成本，还提供了定义跨越数帧的子镜头的视觉相似性的更灵活方式。在多项基准测试中进行了广泛评估，并在几个场景中胜过现有方法。

Mar, 2016

可查询的视频摘要

本文提出一种基于监督学习的、端到端深度学习的方法，用于生成与文本查询相关联的视频摘要。该方法提出了包括视频摘要控制器、视频摘要生成器和视频摘要输出模块在内的一整套系统，并介绍了一个包含帧级别相关性评分标签的数据集。实验结果表明，文本查询可以控制视频摘要，且可提高模型的性能。

Apr, 2020

VideoSET：通过文本对视频摘要进行评估

本文提出 VideoSET，一种通过文本评估视频摘要的方法，该方法可以评估视频摘要能否保留其原始视频中包含的语义信息。我们观察到语义最容易用文字来表达，因此开发了一种基于文本的评估方法。通过生成视频摘要的文本表示，然后使用基于 NLP 的度量方法来测量其与人类编写的基准文本摘要的语义距离。我们展示了我们的技术与基于像素距离的度量方法相比具有更高的人类判断一致性。我们还发布了一些公开可用的视频数据集的文本注释和基准文本摘要，供计算机视觉社区使用。

Jun, 2014

SummEval: 重评摘要评估

本文针对现有的缺陷和问题，提出了五个维度的解决方案，从而能够扩大文本摘要的评估标准，并且进一步研究出与人类判断更加相关的评价指标。

Jul, 2020

基于动作评分的视频摘要

通过分析动作的性质和强度，该论文提出了一种自动算法来生成视频摘要，并使用动作性估计来调节训练模型以提高摘要的生成效果，与现有摘要方法相比有明显优势。

Mar, 2019