Apr, 2024

视觉与语言解码器是否平等使用图像和文本?它们的解释是否自洽?

TL;DR本研究探讨了视觉和语言模型在生成解释时与提供答案时对模态的依赖程度,并评估了视觉和语言模型解码器在后-hoc和CoT解释设置中的自我一致性,发现视觉和语言模型的自我一致性不如纯语言模型,对图像的贡献要远小于文本的贡献,尤其是在解释生成方面,这种差异在CoT解释设置中尤为明显。此外,对最新的视觉和语言模型解码器进行了基准测试,发现视觉和语言模型解码器仍然在VALSE测试中面临许多困难现象。