Nov, 2023

从 CNN-Transformer 模型中提取知识,以增强人类动作识别

TL;DR通过知识蒸馏以及结合 CNN 和 ViT 模型,本研究旨在改善人体动作识别的性能和效率,从较大的教师模型向较小的学生模型传递知识,并通过引入 Transformer 视觉网络作为学生模型以及卷积网络作为教师模型,扩展了对局部图像特征和全局特征的关注,进而显著提升了动作识别的准确性和平均精度。