自由组合网络用于自我中心动作识别
本文提出一种新颖的机器学习模型,通过对主体 - 对象交互的动态学习来探究行为的组成性。该模型能够精确推理组成对象的几何关系和动作代理之间的关系,具有较好的应用前景。在使用 Something-Something 数据集进行训练时,我们提出了一种新的组合性行为识别任务,成功验证了该模型的有效性。
Dec, 2019
提出了一个基于结构化关注融合自注意机制的通用框架,以有效识别由 simpler components 组成的动作标签。该方法在 Something-Something-V2 数据集上表现突出且具有良好的泛化性能。
Dec, 2020
通过构建表达力强的组合行为模型,模拟视频中动作实例的时空组合,采用弱监督学习算法,识别行为的潜在结构,最终实验结果表明该方法在动作识别方面的表现优于竞争方法。
Feb, 2015
该研究提出组合动作识别的方法,并使用时空交互编码器捕捉人体 - 物体之间的交互作用并将其与视频信息相结合。该方法在多个数据集上获得了先进的性能,表明显式地对人体 - 物体之间的交互行为建模是有效的。
May, 2023
本文提出了一种新颖的开放词汇动作识别任务,在训练期间观察到的动词和物体的基础上,通过一个与物体无关的动词编码器和一个基于提示的物体编码器来将动词和物体预测分离,借助 CLIP 表示来预测一组相互作用的对象的开放词汇。在 EPIC-KITCHENS-100 和 Assembly101 数据集上创建了开放词汇基准,而闭合动作方法无法泛化,我们提出的方法非常有效。此外,我们的物体编码器在识别新的相互作用物体方面显著优于现有的开放词汇视觉识别方法。
Aug, 2023
本文提出了一种使用多任务学习的方法,通过并行训练网络来提高动作识别的准确率,并同时实现手部和凝视估计的辅助任务。在多个数据集上的实验证明,该方法在动作识别上的性能明显优于单任务学习模型,并可以准确预测手部和凝视位置。
Sep, 2019
本研究提出了一种使用知识图谱来改善组成动作识别模型对于新动词或新名词的泛化能力的方法,通过提取动词和名词的不可分离特征表示并利用外部知识图谱中的关系来预测分类权重构成动作,并取得了 Charades 数据集上的最佳表现。
Jul, 2022
本文提出了反馈图卷积网络(FGCN)来进行骨架动作识别,FGCN 通过多阶段的时间采样策略和基于稠密连接的反馈图卷积模块,实现了全局空间 - 时间特征的建模,并独创性地提出了早期预测的概念来引导后续特征的学习,实验结果在三个数据集上表现出了最优的效果。
Mar, 2020