重新审视时空布局以进行组合行为识别
本文提出一种新颖的机器学习模型,通过对主体 - 对象交互的动态学习来探究行为的组成性。该模型能够精确推理组成对象的几何关系和动作代理之间的关系,具有较好的应用前景。在使用 Something-Something 数据集进行训练时,我们提出了一种新的组合性行为识别任务,成功验证了该模型的有效性。
Dec, 2019
该研究提出组合动作识别的方法,并使用时空交互编码器捕捉人体 - 物体之间的交互作用并将其与视频信息相结合。该方法在多个数据集上获得了先进的性能,表明显式地对人体 - 物体之间的交互行为建模是有效的。
May, 2023
通过构建表达力强的组合行为模型,模拟视频中动作实例的时空组合,采用弱监督学习算法,识别行为的潜在结构,最终实验结果表明该方法在动作识别方面的表现优于竞争方法。
Feb, 2015
通过引入可解释的时空注意力机制来提高视频动作识别的准确性和模型解释性,并使用一组正则化器对其进行约束。利用弱监督的方式仅使用分类标签,模型不仅提高了准确性,还能时空自动定位区分性区域。
Oct, 2018
通过利用多模态视频数据,并提出使用两种方法来识别人类行为,包括使用卷积模型处理姿势流,由可调节关注机制控制图片流,最后经过 LSTM 神经网络对不同姿态下的处理进行特征提取,能够在多数据集上大幅度的提高人类行为识别的效果。
Mar, 2017
本文介绍一种视频动作时空本地化的方法,着重于弱监督学习,只需要视频类标签即可。利用演员在动作中的变换特性,引入基于演员提议的算法及注意力机制,对三个行为数据集进行测试,实验结果表明,该方法在弱监督下可以实现与一些强监督学习相当的性能。
Apr, 2018
提出了一个基于结构化关注融合自注意机制的通用框架,以有效识别由 simpler components 组成的动作标签。该方法在 Something-Something-V2 数据集上表现突出且具有良好的泛化性能。
Dec, 2020
本文提出了一种新颖的框架,通过交互式融合,即将不同空间的特征进行投影并使用辅助预测任务进行引导,实现了语义信息、位置信息和外貌信息的融合,从而实现了复杂动作的识别,并在两个数据集上进行了验证,取得了比通用识别算法更好的结果。
Dec, 2020
本篇论文提出了 SloshNet,一个新的框架,重新审视少样本动作识别中的空间时间建模,并自动搜索低级和高级空间特征的最佳组合,同时利用 transformer 技术对全局和局部的时间关系进行建模,实现了对四种数据集的优秀结果。
Jan, 2023
本研究提出了一种基于 RNNs 和 LSTM 的空间和时间关注模型,用于从骨架数据中识别人类动作,实验结果表明该模型在 SBU 和 NTU 数据集上均取得了很好的效果。
Nov, 2016