仅加 $π$！用于理解日常生活活动的姿势引发视频 Transformer

Nov, 2023

仅加 $π$！用于理解日常生活活动的姿势引发视频 Transformer

Just Add $π$! Pose Induced Video Transformers for Understanding Activities of Daily Living

Dominick Reilly, Srijan Das

TL;DRPI-ViT is a Pose Induced Video Transformer that augments RGB representations learned by video transformers with 2D and 3D pose information, achieving state-of-the-art performance for Activities of Daily Living (ADL) recognition on real-world and large-scale RGB-D datasets without additional computational overhead at inference.

Abstract

video transformers have become the de facto standard for human action recognition, yet their exclusive reliance on the RGB modality still limits their adoption in certain domains. One such domain is Activities of Daily Living (ADL), where RGB alone is not sufficient to distinguish betw

video transformers activities of daily living pose information pi-vit rgb-d datasets

发现论文，激发创造

VPN++：重新思考视频姿态嵌入以理解日常活动

提出了 Video-Pose Network (VPN) 用于识别日常活动，该模型包含两个不同的方向：一个是通过特征层面的蒸馏将 Pose 知识转移到 RGB 中，另一个是通过注意层面的蒸馏模仿姿势驱动的注意。该模型在 4 个公共数据集上表现出了高速且具有噪声姿势的鲁棒性。

May, 2021

从像素中看姿态：在视觉 Transformer 中学习姿态感知表征

本文探讨了将姿态结合到 RGB 数据中，以学习更细颗粒度和视角不可知的多元表示，并提出了两种学习姿态感知表示的策略，分别为 PAAB 和 PAAT，它们在多个不同的下游视频分析任务中有效，其中 PAAT 略胜于 PAAB。

Jun, 2023

VPN: 学习日常生活活动的视频姿态嵌入

本文提出一种新的 Video-Pose Network（VPN）框架，其中空间嵌入和注意力网络为其两个关键组成部分。在多个数据集上的实验证明，VPN 优于现有技术在动作识别方面的性能，并能更好地利用 ADL 的细微视觉模式来提高识别能力。

Jul, 2020

6D-ViT: 基于变换器的实例表示学习，用于分类级别的 6D 目标姿态估计

本文提出了 6D-ViT，这是一种基于变压器的实例表示学习网络，可用于对 RGB-D 图像进行高准确度的类别级对象姿态估计。通过使用来自 RGB 图像、点云和形状先验的复杂和强大的实例表示进行实验演示，该框架可显著提高现有方法的性能

Oct, 2021

T3VIP: 基于变换的三维视频预测

为了实现机器人的自主技能获取，本文提出了一种基于转化的 3D 视频预测（T3VIP）方法，通过将场景分解为其对象部件并预测其相应的刚性变换，从自身的过去经验中明确地模拟 3D 运动，预测未来的可行结果，并具备自适应超参数优化技术，是首个提供固定摄像头的 RGB-D 视频预测的生成模型。

Sep, 2022

IVT: 一种端到端实例引导的视频 Transformer 用于 3D 姿态估计

本文提出了一种基于实例引导视频变换器（IVT）的范式，该范式可以从视觉特征中有效地学习时空上下文深度信息，并直接从视频帧中预测 3D 姿势，实验结果显示该方法在三个广泛使用的 3D 姿势评估基准上取得了最先进的表现。

Aug, 2022

Act-VIT：使用 Vision Transformer 进行基于骨架的动作识别的表征稳健注意力架构

本文研究了基于骨架的动作识别中视觉 transformers 的有效性以及其在伪图像表示方案上的鲁棒性，并提出了一个三级体系结构 Act-VIT，通过应用分类器，在每个表示上合并其结果以找到最终的动作类别。实验研究表明，相比于 CNN，视觉 transformers 对初始伪图像表示的敏感性较低，但是通过分类器的一致性仍然可以进一步提高识别性能。

Nov, 2023

VividPose: 提升稳定视频扩散以实现逼真的人体图像动画

通过使用稳定的视频扩散 (SVD)、面部信息集成、准确对齐人体姿态和形状的控制器，VividPose 通过保持人物身份，并提供一个能处理多种身体形状和动态手部运动的坚实框架，实现了最先进的性能，并展示出在我们提出的野外数据集上的出色泛化能力。

May, 2024

VITON-DiT: 通过扩散变换器从人体舞蹈视频中学习野外视频试衣

VITON-DiT 是第一个基于 Diffusion Transformer 的视频试穿框架，通过提取服装特征与去噪 DiT 及 ControlNet 的自注意力输出相融合来忠实地恢复服装细节，并在训练中引入新的随机选择策略和插值自回归技术，以产生长视频生成。与现有方法相比，VITON-DiT 仅依赖非配对的人类舞蹈视频和精心设计的多阶段训练策略，减轻了对繁琐、限制性的配对训练数据集的需求，并通过精心策划的基准数据集评估其在复杂人体姿势的野外视频试穿中生成的时空一致的结果的优越性。

May, 2024

ViLP: 通过视觉、语言和姿势嵌入进行视频动作识别的知识探索

本研究提出了首个基于姿势增强的视觉语言模型（VLM）用于视频动作识别，该方案在 UCF-101 和 HMDB-51 两个常用数据集上分别达到 92.81% 和 73.02% 的准确率，在动态学习预训练后准确率分别达到 96.11% 和 75.75%。

Aug, 2023