使用深度语义特征的视频摘要

Sep, 2016

Video Summarization using Deep Semantic Features

Mayu Otani, Yuta Nakashima, Esa Rahtu, Janne Heikkilä, Naokazu Yokoya

TL;DR该论文提出了一种基于深度视频特征和聚类的视频摘要技术，旨在更高效地生成互联网视频的概览，该技术通过设计一种映射视频和描述的深度神经网络来将视频元素转化为语义空间。

Abstract

This paper presents a video summarization technique for an Internet video to provide a quick way to overview its content. This is a challenging problem because finding important or informative parts of the original video requires to understand its content. Furthermore the content of

video summarization internet videos deep video features neural network clustering-based summarization

发现论文，激发创造

综合视频理解：基于内容的视频推荐器设计的视频摘要

该论文将视频摘要提出了内容为基础的推荐问题，使用可扩展的深度神经网络在显式建模的片段和视频上进行预测，通过场景和动作识别来寻找视频理解任务不同方面之间的相关性，同时讨论音频和视觉特征在总结任务中的影响，并通过数据增强和多任务学习来防止模型过度拟合。该模型最终在 ICCV 2019 CoView Workshop Challenge Track 中获得第一名。

Oct, 2019

多源特征无监督视频摘要

本文提出了通过结合多种特征源进行特征融合的视频摘要算法，该算法在两个基准测试数据集 TVSum 和 SumMe 上取得了最新的研究结果，并对以往的研究方法进行了评估，同时进行误差分析以找出导致分类错误的因素。

May, 2021

基于多模态自监督学习的渐进式视频摘要技术

本文介绍了一种基于深度神经网络的视频摘要方法，该方法使用了多模态自监督学习框架，该框架可以在不需要大规模标注数据的情况下，通过视频与文本之间的语义一致性来获取视频的语义表示，并提出了一种渐进式摘要方法。实验表明，该方法的排名相关系数和 F 分数均优于现有视频摘要方法。

Jan, 2022

增强上下文感知的视频摘要

视频摘要是一个至关重要的研究领域，旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性，缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估，我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外，我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明，我们的无需训练的框架优于现有的无监督方法，并与最先进的监督方法取得竞争性结果。

Apr, 2024

使用全卷积序列网络进行视频摘要

这篇论文探讨了视频摘要的问题，并将其作为一个序列标注问题。优化地选择输入视频的一部分帧以创建一个摘要视频，以最优地捕捉输入视频的重要信息，这提供了一个有用的工具来协助视频检索、浏览等。作者提出使用全卷积序列模型解决视频摘要问题，并通过对普通语义分割网络的改进使之适用于摘要视频的任务。实验结果表明提出的模型具有有效性。

May, 2018

基于条件建模的自动视频摘要

基于对人类生成的视频摘要的洞察，本论文提出了一种新的视频摘要方法，该方法利用条件建模的视角，引入多个有意义的随机变量和联合分布来刻画视频摘要的关键组成部分，并利用辅助分布改进模型的训练。设计了条件注意力模块来减轻多模态输入可能导致的性能下降，该方法融合了以上创新设计选择，旨在缩小人工生成和机器生成视频摘要之间的差距。大量实验证明该方法优于现有方法，并在常用视频摘要数据集上实现了最先进的性能。

Nov, 2023

主题相关视频的协作摘要

采用协作优化方法，利用视频聚类和主题相关视频提供的视觉背景，同时抓取视频的重要特点和归纳性信息，从而进行视频摘要提取，该方法在两个数据集上的实验证明了其优越性。

Jun, 2017

VideoSET：通过文本对视频摘要进行评估

本文提出 VideoSET，一种通过文本评估视频摘要的方法，该方法可以评估视频摘要能否保留其原始视频中包含的语义信息。我们观察到语义最容易用文字来表达，因此开发了一种基于文本的评估方法。通过生成视频摘要的文本表示，然后使用基于 NLP 的度量方法来测量其与人类编写的基准文本摘要的语义距离。我们展示了我们的技术与基于像素距离的度量方法相比具有更高的人类判断一致性。我们还发布了一些公开可用的视频数据集的文本注释和基准文本摘要，供计算机视觉社区使用。

Jun, 2014

使用深度行动识别特征对用户生成的体育视频进行总结

该论文提出了一种通过深度神经网络对运动员的动作进行分类来生成运动视频摘要的方法，并采用日本剑术 Kendo 作为例子进行了评估，结果表明该方法优于之前的摘要方法。

Sep, 2017

包含视频的文档的多模式摘要

本文提出了一种基于文档和相关视频的新型多模态摘要任务，并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型，旨在同时处理文本和视频摘要。实验结果表明，该模型有利于多模态摘要且优于现有方法，同时构建了一个新的文档和视频数据集作为未来研究的资源。

Sep, 2020