利用三元组损失进行无监督动作分段
提出半监督学习方法解决在只有一小部分有标签数据和大量没有标签数据的工程视频中,发现行动并将其分段的任务,其中两个新的损失函数和自适应边界平滑方法也被提出,并在三个基准测试中评估,结果表明它们显著提高了行为分割性能,并在用少量标记数据(5%和 10%)的情况下取得了与全监督相当的结果。
Jul, 2022
提出一种无监督学习框架,利用未标记的数据来学习视频表示,通过学习推断不同视图的三维运动,捕捉视角不变的动作特征,以及增强视角不变特征的学习方法,并在多个数据集上证明该方法对动作识别的有效性。
Sep, 2018
本文提出了一种新颖的无监督活动分割方法,该方法使用视频帧聚类作为预文本任务,并同时执行表示学习和在线聚类。通过使用时间最优传输来利用视频中的时间信息,同时,在计算伪标签聚类分配的标准最优传输模块中加入保留活动时间顺序的时间正则化项。与之前的方法相比,我们的方法不需要在离线模式下存储整个数据集的特征,而是以在线模式每次处理一个小批量。 extensive evaluations on three public datasets, i.e. 50-Salads, YouTube Instructions, and Breakfast, and our dataset, i.e., Desktop Assembly, show that our approach performs on par with or better than previous methods, despite having significantly less memory constraints.
May, 2021
提出一种新的基于弱监督框架,通过利用注意力机制定位动作帧同时识别未修剪视频中的动作,利用修剪视频中的信息传递知识来提高分类性能。在 THUMOS14 和 ActivityNet1.3 上经过广泛的实验,实验证明了该方法的有效性。
Feb, 2019
提出一种全自动且无监督的方法,使用有效的时间加权层次聚类算法,对视频进行行动划分并在五个具有挑战性的动作分割数据集上展示出明显的性能改善。
Mar, 2021
本文提出了一种基于视觉和时间嵌入空间的非监督学习方法,在不需要手动注释的情况下,通过连续的视频帧中存在的视觉线索,成功地检测到相关的行动群簇,并且适用于时间分割任务。
Jan, 2020
该研究提出了一种基于连续时间嵌入的无监督学习方法,通过鉴别视觉序列中课程的聚类段以实现发现非结构化视频中的动作。该方法被评估在三个数据集上,可以适用于未知情景下的视觉内容分析
Apr, 2019
本文提出了一种新的方法来从大规模的无标签视频数据中学习视频表示,采用无监督表示学习作为多模式、多任务学习问题,利用进化搜索算法来自动找到捕获许多(自我监督)任务和模态的优化损失函数的组合,并提出了一种基于 Zipf 定律的无监督表示验证度量,该度量不受任何标签的指导,可产生类似于弱监督、特定任务的结果,该方法得到了单一 RGB 网络的无监督表示学习,并且胜过了之前的方法。
Feb, 2020
本文提出了一个基于无监督学习的方法来学习视频中的动作识别表示,该方法结合图像表示中的两种顶级目标 —— 实例识别和局部聚合,以及通过 IDT 描述符构成的集群。使用此方法,我们在 UCF101 和 HMDB51 动作识别基准测试中取得了优异的结果,并且成功捕捉了视频动态。
Jun, 2020
我们提出了一种基于解决优化传输问题的长时间、未修剪视频的动作分割任务的新方法。通过将时间一致性先验编码到 Gromov-Wasserstein 问题中,我们能够从视频帧和动作类之间的噪声亲和 / 匹配成本矩阵中解码出一个时间一致的分割。与以前的方法不同,我们的方法不需要知道视频的动作顺序以实现时间一致性。此外,我们得到的(融合的)Gromov-Wasserstein 问题可以使用几次投影镜像下降的迭代在 GPU 上高效解决。我们在无监督学习环境中展示了我们方法的有效性,其中我们的方法用于为自我训练生成伪标签。我们在 Breakfast、50-Salads、YouTube 指南和桌面装配数据集上评估了我们的分割方法和无监督学习管道,得到了无监督视频动作分割任务的最新结果。
Apr, 2024