CVPRSep, 2022

针对自我视角 RGB 视频的三维手部姿态估计和动作识别的分层时间变换器

TL;DR通过一个基于 transformer 的框架来利用时间信息进行动态手势和行为的鲁棒性估计,分别实现短期的手势估计和长期的行为识别,取得了较好的结果。