Mar, 2024

不可解问题检测:评估视觉语言模型的可信度

TL;DR本文介绍了一项名为无法解决问题检测(UPD)的视觉语言模型(VLM)的新挑战,通过视觉问答(VQA)任务中遇到无法解决的问题来考察 VLM 在保留答案方面的能力。我们通过广泛的实验发现,包括 GPT-4V 和 LLaVA-Next-34B 在内的大多数 VLM 都在不同程度上面临我们的基准测试的困难,凸显了改进的重要空间。为了解决 UPD 问题,我们探索了无需训练和基于训练的解决方案,为它们的有效性和局限性提供了新的见解。我们希望我们的见解,以及在所提出的 UPD 设置下的未来努力,能够增强对更实用和可靠的 VLM 的广泛理解和开发。