Aug, 2024

面向生成视觉问答的灵活评估

TL;DR本研究解决了多模态大型语言模型在评估其多模态理解能力时的公平性和准确性问题。通过提出基于语义的评估方法,针对传统的视觉问答(VQA)评估的局限性,创建了评估VQA评估者的数据集(AVE),并设计了语义灵活的VQA评估者(SFVE),实验结果显示该评估方法明显优于现有的语义评估器。