从视频中无监督学习和分割复杂活动

CVPRMar, 2018

从视频中无监督学习和分割复杂活动

Unsupervised Learning and Segmentation of Complex Activities from Video

Fadime Sener, Angela Yao

TL;DR本文介绍了一种新的无监督视频分割方法，采用迭代鉴别生成方法，通过学习视频视觉特征并建模时序结构，将复杂活动划分为多个子活动，并引入背景模型，验证结果优于现有无监督及弱监督方法。

Abstract

This paper presents a new method for unsupervised segmentation of complex activities from video into multiple steps, or sub-activities, without any textual input. We propose an iterative →

unsupervised segmentation video analysis discriminative-generative approach sub-activities temporal modeling

发现论文，激发创造

利用远程监督学习识别过程性活动

本文研究了从长达数分钟的视频中识别精细、多步骤活动的问题，通过远程监督的语言模型方法，基于 wikiHow 的文本数据库自动标注视频中的步骤，并在识别过程中考虑了它们的时间依赖性，实现了较高的泛化性能。

Jan, 2022

联合表示学习与在线聚类进行无监督动作分割

本文提出了一种新颖的无监督活动分割方法，该方法使用视频帧聚类作为预文本任务，并同时执行表示学习和在线聚类。通过使用时间最优传输来利用视频中的时间信息，同时，在计算伪标签聚类分配的标准最优传输模块中加入保留活动时间顺序的时间正则化项。与之前的方法相比，我们的方法不需要在离线模式下存储整个数据集的特征，而是以在线模式每次处理一个小批量。 extensive evaluations on three public datasets, i.e. 50-Salads, YouTube Instructions, and Breakfast, and our dataset, i.e., Desktop Assembly, show that our approach performs on par with or better than previous methods, despite having significantly less memory constraints.

May, 2021

复杂活动中基于无监督判别嵌入的子动作学习

本文提出了一种新的对复杂活动中的子动作进行非监督学习的方法，将视觉和时间表示映射到一个空间中，利用 “判别式潜在概念学习” 模块进行无监督的子动作学习，可以在视觉和时间嵌入空间中学习到稳健的动作表示。

Apr, 2021

通过观察和叙述学习动作分割

应用叙述指导下的生成式分段模型，重点研究在无监督和弱监督设置中进行视频动作分割，发现任务结构和叙述语言在训练中被用作监督来源有利于提高分割质量.

May, 2020

连续时间嵌入的无监督动作类别学习

该研究提出了一种基于连续时间嵌入的无监督学习方法，通过鉴别视觉序列中课程的聚类段以实现发现非结构化视频中的动作。该方法被评估在三个数据集上，可以适用于未知情景下的视觉内容分析

Apr, 2019

从教学视频转录中生成无监督任务图

本文探讨了生成真实世界活动任务图的问题，提出了一种无监督的任务图生成方法，结合语言模型的推理能力、聚类和排名组件，比 ProceL 和 CrossTask 数据集中的有监督学习方法生成更准确的任务图。

Feb, 2023

自监督事件分割的感知预测框架

本文提出了一种自我监督的、基于认知心理的预测学习框架，通过自适应学习来减少循环神经网络中灾难性遗忘的影响，在三个公共数据集上进行了广泛的实验，表明所提出的方法能够优于弱监督和其他非监督学习方法最多达 24％，并具有完全监督方法相媲美的性能。同时，该方法还能够学习高度区分特征，进而提高动作识别的表现。

Nov, 2018

从视频中进行全局连续和非马尔可夫活动分析

使用非监督学习方法，结合非参数贝叶斯方法和全局连续的时间建模，发现视频数据中的活动模式并检测异常，此方法比现有的方法更加完善和精确。

Oct, 2018

视频分割和识别的端到端生成框架

本研究提出了一种基于 Fisher 向量和时间模型相结合的端到端生成式方法来实现人类活动的分割和识别，其适用于各种视频数据集并且优于现有的最先进方法。

Sep, 2015

无监督视频集合中的语义行为发现

通过视觉和语言提示的联合生成模型，对互联网上海量的指示视频进行语义步骤解析，为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。

May, 2016