CVPRMay, 2023

M$^2$DAR:基于 Vision Transformer 的多视角多尺度驾驶员动作识别

TL;DR提出了一个名为 M2DAR 的多视角、多尺度框架,利用计算机视觉技术实现自然驾驶动作识别和定位来保障交通安全,特别关注于检测分心驾驶行为,其核心特征在于一个具有权重共享、多尺度 Transformer-based 动作识别网络,并提出了一个新的选举算法从多个视角综合整合和选择动作识别模块的初步结果,实验表明该方法在第 7 届 AI City Challenge Track 3 数据集上实现了 0.5921 的重叠分数。