Jan, 2025

视觉语言模型评估的挑战性多项选择题的自动生成

TL;DR本研究解决了现有视觉问答基准依赖开放性问题而导致评估不准确的问题。通过引入AutoConverter框架,研究者能够将开放性问题自动转换为多项选择题,从而实现客观评估并降低问题创建成本。实验结果表明,使用AutoConverter生成的多项选择题具有挑战性,且视觉语言模型在准确性上与人工创建的问题表现相似或更低,建立了VMCBench这一新的统一多项选择基准,推进了视觉语言模型评估的标准化与可重复性。