VPN++：重新思考视频姿态嵌入以理解日常活动

May, 2021

VPN++：重新思考视频姿态嵌入以理解日常活动

VPN++: Rethinking Video-Pose embeddings for understanding Activities of Daily Living

Srijan Das, Rui Dai, Di Yang, Francois Bremond

TL;DR提出了 Video-Pose Network (VPN) 用于识别日常活动，该模型包含两个不同的方向：一个是通过特征层面的蒸馏将 Pose 知识转移到 RGB 中，另一个是通过注意层面的蒸馏模仿姿势驱动的注意。该模型在 4 个公共数据集上表现出了高速且具有噪声姿势的鲁棒性。

Abstract

Many attempts have been made towards combining rgb and 3d poses for the recognition of activities of daily living (ADL). ADL may look very

rgb 3d poses activities of daily living video-pose network pose driven attention

发现论文，激发创造

VPN: 学习日常生活活动的视频姿态嵌入

本文提出一种新的 Video-Pose Network（VPN）框架，其中空间嵌入和注意力网络为其两个关键组成部分。在多个数据集上的实验证明，VPN 优于现有技术在动作识别方面的性能，并能更好地利用 ADL 的细微视觉模式来提高识别能力。

Jul, 2020

仅加 $π$！用于理解日常生活活动的姿势引发视频 Transformer

PI-ViT is a Pose Induced Video Transformer that augments RGB representations learned by video transformers with 2D and 3D pose information, achieving state-of-the-art performance for Activities of Daily Living (ADL) recognition on real-world and large-scale RGB-D datasets without additional computational overhead at inference.

Nov, 2023

少样本、细粒度运动动作识别视频姿态蒸馏

研究了利用视频行为识别任务中的人体姿态，介绍了 Video Pose Distillation (VPD) 弱监督技术来学习新视频领域的特征。其在不需要额外的人体姿态注释的情况下，在四个真实世界的体育视频数据集上提高了人体动作识别、检索和检测任务的性能。

Sep, 2021

从合成数据中学习人体姿势模型以实现鲁棒的 RGB-D 动作识别

我们提出了一种人体姿态模型，可表示与服装纹理、背景、光线条件、身体形状和摄像机视点无关的 RGB 和深度图像。通过开发一个综合训练数据的框架，我们学习了 CNN 模型并使用它们从真正的 RGB 和深度帧的人体动作视频中提取不变特征。在三个基准跨视图人体动作数据集的实验中，我们的算法在 RGB 和 RGB-D 动作识别方面明显优于现有方法。

Jul, 2017

从 RGB-D 图像推断三维物体姿态

该研究旨在使用卷积神经网络检测和定位 RGB-D 场景中的物体，然后使用 3D 模型替换它们，相对于目前最先进的算法，该方法在 3D 检测任务中表现出 48％的相对改进，并且速度更快。

Feb, 2015

使用在合成 RGB-D 上训练的深度网络实现语义姿态

通过深度卷积神经网络实现室内场景理解的任务。为了克服 RGB-D 训练数据不足的问题，采用实时渲染技术生成合成室内场景，并通过迁移学习的方式使得模型能够处理具有高度挑战性的真实场景。该神经网络具备较短的运行时间，可同时估计类别、姿态和位置等参数。

Aug, 2015

针对人类动作识别的姿态条件的时空关注

通过利用多模态视频数据，并提出使用两种方法来识别人类行为，包括使用卷积模型处理姿势流，由可调节关注机制控制图片流，最后经过 LSTM 神经网络对不同姿态下的处理进行特征提取，能够在多数据集上大幅度的提高人类行为识别的效果。

Mar, 2017

可重构卷积神经网络实现的三维人体活动识别

本文提出了一种基于 RGB-D 视频的自动活动识别的深度模型，使用 3D 卷积和最大池化算子，结合激活函数以及学习出活动的时间结构，该模型可以直接作用在原始输入上进行活动分类，而且还允许动态调整模型结构以适应人类活动的时间变化，并在挑战性场景下验证了该方法的优越性，同时还给出了一个大型的 RGB-D 视频人类活动数据库。

Jan, 2015

使用三维卷积神经网络实现时空人体姿态估计

本研究探讨了卷积神经网络在处理单目视觉下 3D 人体姿态感知任务方面的能力，通过将时间维度编码在卷积空间中的第三个维度，直接回归到 3D 坐标空间中的人体关节位置，从而在选定的 Human3.6M 数据集上展示了该网络达到了最先进的性能。

Aug, 2016

使用双流卷积网络的 RGB 和姿态信息进行细粒度动作检测

本论文提出了一种基于卷积神经网络和注意机制的两流网络方法，用于对乒乓球发球进行分类和检测，其中使用了原始 RGB 数据和 MMPose 工具箱计算的姿势信息，采用后期融合方法进行性能提升，并在 TTStroke-21 数据集上进一步评估，对飞球分类的准确率提高了到 87.3％，而检测结果虽没有超过基准，但仍可达到 0.349 的 IoU 和 0.110 的 mAP。

Feb, 2023