视频分类和关键帧识别的半监督和深度学习框架

Mar, 2022

视频分类和关键帧识别的半监督和深度学习框架

Semi-supervised and Deep learning Frameworks for Video Classification and Key-frame Identification

Sohini Roychowdhury

TL;DR本文提出了两种半监督方法以自动化视频流中的场景分类和筛选关键帧。所提出的框架可用于增加的视频数据流，以最少的训练图像自动训练感知驱动系统。

Abstract

Automating video-based data and machine learning pipelines poses several challenges including metadata generation for efficient storage and retrieval and isolation of key-frames for →

video-based data machine learning pipelines semi-supervised approaches scene understanding tasks automated training

发现论文，激发创造

基于注意力机制的深度神经网络关键帧提取

本文提出了一种基于深度自动编码器模型和注意力层的关键帧检测方法，该方法首先使用自动编码器的编码器部分从视频帧中提取特征，并使用 K-means 聚类算法对这些特征和相似帧进行分割，然后从每个簇中选择与簇中心最接近的帧作为关键帧，该方法在 TVSUM 视频数据集上达到了 0.77 的分类准确率，对于视频分析领域中的关键帧提取具有良好的应用前景。

Jun, 2023

使用帧级别查询进行视频分类的主动学习

本文提出了一种新的主动学习框架，通过选择一批典型样本和一组信息帧进行视频分类，以减轻人工注释员的负担。通过不确定性和多样性来确定信息化的视频，并利用代表性采样技术从每个视频中提取一组样本帧。

Jul, 2023

高效视频分类的深度非监督关键帧提取

本文提出了一种基于 CNN 和 TSDPC 的无监督关键帧检索方法，能够自动计算关键帧数量并保留视频时间信息，此外，还加入了 LSTM 网络和权重融合策略来提升分类性能和效率，并在两个常用数据集上进行了评估，结果表明与现有方法相比，该方法具有更好的性能和效率。

Nov, 2022

使用伪标签的半监督视频显著目标检测

本论文提出了一种基于半监督学习的视频显著性目标检测方法，使用伪标签从稀疏注释帧中生成像素级伪标签，并结合部分手动注释，学习了空间和时间线索，进而产生准确的显著性图。实验结果表明，我们的方法在 VOS、DAVIS 和 FBMS 三个公共基准测试数据集上均明显优于所有最先进的全监督方法。

Aug, 2019

Framing Unpacked: 一种半监督的可解释的多视角媒体框架模型

使用半监督模型和自编码框架，学习嵌入新闻文章中事件和相关人物的本地信息，并利用这个信号进行框架分类。实验结果显示，该模型表现优于以前的框架预测模型，并可以通过使用半监督模型的未标记训练数据进一步提高性能，并且所学的事件和角色嵌入直观上与文档级预测相符，提供一种细致和可解释的文章框架表示。

Apr, 2021

观察和学习：从视频中半监督学习目标检测器

本文提出一种半监督的方法，用于在长视频中定位多个未知的物体实例，通过这种方法可以有效地进行对象检测和跟踪，同时实现对大量静态物体实例的识别。

May, 2015

一种灵活的动作定位训练模型，具有不同程度的监督

提出了一种基于磁盘聚类的统一框架，它可以处理和结合不同类型的较低需求的弱监督，从视频中监测时空活动，并将其应用于训练设置中的不同类型的监督信号实验结果证明：该模型在 UC101-24 和 DALY 数据集上具有竞争性能，而且与之前的方法相比，使用的监督信号更少。

Jun, 2018

无监督关键点学习用于指导类别条件视频预测

本文提出一种以单个图像和动作类别为条件的深度视频预测模型，通过检测物体关键点并将关键点序列预测为未来运动，然后通过平移输入图像来生成未来帧。该方法通过无监督方式训练来检测任意对象的关键点，并使用原始视频的检测关键点作为伪标签学习物体运动，实验结果表明，我们的方法可以应用于各种数据集，而不需要对视频中的关键点进行标注，检测到的关键点类似于人工标注的标签，并且与以前的方法相比，预测结果更加真实。

Oct, 2019

网络视频标签细化和定位的数据驱动方法

本文介绍了一种自动视频标注的方法，该方法可以增加用户提供的标签数量，并将其临时本地化，将标签与关键帧关联起来。我们的方法利用用户生成的标签和 web 来源中的集体知识，以及上传到社交网站和 web 来源的关键帧和图片的视觉相似性。与需要为每个标签训练分类器的现有视频标记方法相比，我们的系统具有较少的参数，易于实现，并且可以处理开放词汇的场景。我们在 DUT-WEBV 上展示了该方法，该数据集是一个大型的网络视频数据集，结果显示出最先进的结果。

Jul, 2014

视频分类的混合深度学习框架中建模时空线索

本文提出了一种混合式深度学习框架，旨在对视频的静态空间信息、短期运动以及长期时间线索进行建模，并且在 UCF-101 人体动作和 Columbia 消费者视频两个标注数据集上实验，结果表明该框架相对于传统策略具有更高的性能.

Apr, 2015