Apr, 2024

使用来自视觉 - 语言模型的通用表示进行驾驶员活动分类

TL;DR使用视觉 - 语言模型的通用表征,在司机活动分类中利用语义表示延迟融合神经网络(SRLF-Net)的新方法,通过对多个视角的同步视频帧进行处理,对每个帧进行预训练的视觉 - 语言编码器进行编码,并融合生成类别概率预测,利用对比学习的视觉 - 语言表示,方法在自然驾驶行为识别数据集上得到了鲁棒的性能,证明视觉 - 语言表示为司机监控系统提供了准确性和可解释性。