Sep, 2024

DARE:具备鲁棒性评估的多样化视觉问答

TL;DR本研究针对视觉语言模型在视觉-语言推理能力,尤其是在计数和空间推理方面的不足进行探讨,同时现有基准未能有效评估其鲁棒性。我们提出DARE,一个多项选择的视觉问答基准,通过五个多样化类别和四个基于变异的鲁棒性评估,发现最先进的视觉语言模型在大多数类别的问题上表现不佳,且在鲁棒性评估中的表现波动较大。