Mar, 2024
自动驾驶问答的多帧、轻量级和高效视觉语言模型
Multi-Frame, Lightweight & Efficient Vision-Language Models for Question
Answering in Autonomous Driving
TL;DREM-VLM4AD是一种轻量级、高效的多帧视觉语言模型,用于自动驾驶中的视觉问答任务,相较于先前方法,它在内存和浮点运算资源的使用上减少了至少10倍,并在DriveLM数据集上获得了更高的BLEU-4、METEOR、CIDEr和ROGUE分数。