Nov, 2023

团结则存,分裂则亡:UnityGraph 用于无监督视频程序学习

TL;DR给定相同任务的多个视频,本研究致力于确定任务的关键步骤并确定其顺序。为此,我们提出了一种无监督的基于图的过程学习 (GPL) 框架,其中包括了新颖的 UnityGraph 来获取视频内和视频间上下文。另外,为了获得相似的嵌入,我们使用 Node2Vec 算法无监督地更新 UnityGraph 的嵌入向量。最后,我们使用 KMeans 算法对嵌入向量进行聚类以确定关键步骤。我们在 ProceL、CrossTask 和 EgoProceL 数据集上进行了测试,并相比最先进方法,第三方数据集的平均改进为 2%,EgoProceL 数据集的改进为 3.6%。