从视频中无监督学习和分割复杂活动
本文研究了从长达数分钟的视频中识别精细、多步骤活动的问题,通过远程监督的语言模型方法,基于 wikiHow 的文本数据库自动标注视频中的步骤,并在识别过程中考虑了它们的时间依赖性,实现了较高的泛化性能。
Jan, 2022
本文提出了一种新颖的无监督活动分割方法,该方法使用视频帧聚类作为预文本任务,并同时执行表示学习和在线聚类。通过使用时间最优传输来利用视频中的时间信息,同时,在计算伪标签聚类分配的标准最优传输模块中加入保留活动时间顺序的时间正则化项。与之前的方法相比,我们的方法不需要在离线模式下存储整个数据集的特征,而是以在线模式每次处理一个小批量。 extensive evaluations on three public datasets, i.e. 50-Salads, YouTube Instructions, and Breakfast, and our dataset, i.e., Desktop Assembly, show that our approach performs on par with or better than previous methods, despite having significantly less memory constraints.
May, 2021
本文提出了一种新的对复杂活动中的子动作进行非监督学习的方法,将视觉和时间表示映射到一个空间中,利用 “判别式潜在概念学习” 模块进行无监督的子动作学习,可以在视觉和时间嵌入空间中学习到稳健的动作表示。
Apr, 2021
该研究提出了一种基于连续时间嵌入的无监督学习方法,通过鉴别视觉序列中课程的聚类段以实现发现非结构化视频中的动作。该方法被评估在三个数据集上,可以适用于未知情景下的视觉内容分析
Apr, 2019
本文探讨了生成真实世界活动任务图的问题,提出了一种无监督的任务图生成方法,结合语言模型的推理能力、聚类和排名组件,比 ProceL 和 CrossTask 数据集中的有监督学习方法生成更准确的任务图。
Feb, 2023
本文提出了一种自我监督的、基于认知心理的预测学习框架,通过自适应学习来减少循环神经网络中灾难性遗忘的影响,在三个公共数据集上进行了广泛的实验,表明所提出的方法能够优于弱监督和其他非监督学习方法最多达 24%,并具有完全监督方法相媲美的性能。同时,该方法还能够学习高度区分特征,进而提高动作识别的表现。
Nov, 2018
通过视觉和语言提示的联合生成模型,对互联网上海量的指示视频进行语义步骤解析,为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。
May, 2016