Sep, 2024
为视觉问答选择视觉-语言模型的指导
Guiding Vision-Language Model Selection for Visual Question-Answering
Across Tasks, Domains, and Knowledge Types
TL;DR本文解决了在实际应用中标准化评估视觉-语言模型(VLMs)以满足视觉问答(VQA)任务的挑战。作者提出了一种新颖的评估框架和数据集,并开发了GoEval评估指标,通过实验发现没有单一模型在所有领域表现最佳,这为VLM的选择提供了实用指导,具有重要的应用前景。