Sep, 2024

为视觉问答选择视觉-语言模型的指导

TL;DR本文解决了在实际应用中标准化评估视觉-语言模型(VLMs)以满足视觉问答(VQA)任务的挑战。作者提出了一种新颖的评估框架和数据集,并开发了GoEval评估指标,通过实验发现没有单一模型在所有领域表现最佳,这为VLM的选择提供了实用指导,具有重要的应用前景。