Mar, 2024

自动驾驶问答的多帧、轻量级和高效视觉语言模型

TL;DREM-VLM4AD是一种轻量级、高效的多帧视觉语言模型,用于自动驾驶中的视觉问答任务,相较于先前方法,它在内存和浮点运算资源的使用上减少了至少10倍,并在DriveLM数据集上获得了更高的BLEU-4、METEOR、CIDEr和ROGUE分数。