Jan, 2025

驾驶视觉问答:分析视觉语言模型在现实场景下的视觉链思维推理

TL;DR本研究解决了现有视觉语言模型在复杂视觉推理中面临的挑战,特别是在文本和视觉数据之间的模态差距。提出的新基准DrivingVQA,通过利用驾驶理论测试,评估视觉链思维推理的能力,发现现有模型在零样本设置下的表现不佳,并提出基于相关实体的训练策略以提升推理效果,提升幅度可达7%。