Mar, 2024

基于 Transformer 的 2D 姿势和时空嵌入融合的分心驾驶操作识别

TL;DR该研究旨在通过将视频动作识别和 2D 人体姿势估计网络结合为一个模型,改善时间定位和分类准确性表现。最终,通过从不同的摄像头视角获取信息并消除误报,该模型在 2023 年 NVIDIA AI 城市挑战的自然驾驶行为识别中表现出色,实现了优化的区域覆盖得分 0.5079。