学习潜在的时空组合模型用于人类动作识别

MMFeb, 2015

学习潜在的时空组合模型用于人类动作识别

Learning Latent Spatio-Temporal Compositional Model for Human Action Recognition

Xiaodan Liang, Liang Lin, Liangliang Cao

TL;DR通过构建表达力强的组合行为模型，模拟视频中动作实例的时空组合，采用弱监督学习算法，识别行为的潜在结构，最终实验结果表明该方法在动作识别方面的表现优于竞争方法。

Abstract

action recognition is an important problem in multimedia understanding. This paper addresses this problem by building an expressive compositional action model. We model one action instance in the video with an en

action recognition compositional action model spatio-temporal and-or graph weakly supervised learning multimedia understanding

发现论文，激发创造

建模空间 - 时间交互以进行组合动作识别

该研究提出组合动作识别的方法，并使用时空交互编码器捕捉人体 - 物体之间的交互作用并将其与视频信息相结合。该方法在多个数据集上获得了先进的性能，表明显式地对人体 - 物体之间的交互行为建模是有效的。

May, 2023

空间时态交互网络的组合动作识别

本文提出一种新颖的机器学习模型，通过对主体 - 对象交互的动态学习来探究行为的组成性。该模型能够精确推理组成对象的几何关系和动作代理之间的关系，具有较好的应用前景。在使用 Something-Something 数据集进行训练时，我们提出了一种新的组合性行为识别任务，成功验证了该模型的有效性。

Dec, 2019

重新审视时空布局以进行组合行为识别

本文研究了基于物体的方法解决动作识别问题，提出了一种基于多头注意力的配置分析方法，证明将布局信息与外观信息相结合可以提高方法的识别准确率。

Nov, 2021

一种视频动作检测的语法组合模型

基于语法组合模型的行为检测方法可以有效地分析视频中的人类行动，提高模型的解释性和优化效果。

Oct, 2023

跨视角动作建模、学习和识别

提出了一种新的多视角空间 - 时间 AND-OR 图表示方法，它能在未知视角下从 2D 视频输入中识别出跨视角动作，并通过基于 Kinect 相机获得 3D 人体骨骼数据进行训练，有效提高了在 2D 视频上的跨视角动作识别准确性和鲁棒性。

May, 2014

建模时空人体轨迹结构用于动作定位

本文提出了一种基于循环定位网络（RecLNet）的视频人类行为的时空定位方法，能够显著提高人类行为的时空定位效果，尤其在时间定位方面的改进表现较好，已在 UCF101-24 和 DALY 两个数据集上进行了评估。

Jun, 2018

TEACH：针对 3D 人体的时间动作组合

利用 BABEL 动作文本集合，设计了一种基于 Transformer 的 TEACH 方法，能够根据自然语言描述生成符合语义的 3D 人体动作，实现由多个动作组成的时间动作构成。

Sep, 2022

LAC：基于骨骼的动作分割的潜在行动组合

骨架动作分割需要在未修剪的视频中识别可组合的动作。本文提出了一种名为潜在动作组合（LAC）的自监督框架，通过学习合成的可组合运动，从骨架动作序列中学习视觉表示，在转移学习中表现出色。

Aug, 2023

演员监督的时空动作定位

本文介绍一种视频动作时空本地化的方法，着重于弱监督学习，只需要视频类标签即可。利用演员在动作中的变换特性，引入基于演员提议的算法及注意力机制，对三个行为数据集进行测试，实验结果表明，该方法在弱监督下可以实现与一些强监督学习相当的性能。

Apr, 2018

深度视频中的多模态多部分学习与动作识别

提出了一种基于结构稀疏性的联合稀疏回归学习方法，利用来自稀疏部位集的多模态特征的组合将每个动作建模为结构稀疏性，以此来表示各个部位的动态和外观。

Jul, 2015