Apr, 2025

PuzzleBench:大型多模态模型在解谜方面的全面动态评估框架

TL;DR本研究针对现有评估基准静态且容易污染的问题,提出了一种名为开放式视觉拼图生成(OVPG)的全面动态多模态评估框架。该框架通过自动生成新鲜、多样且可验证的评估数据,构建了PuzzleBench基准,包含11840个视觉问答样本,以支持大型多模态模型在视觉识别、逻辑推理和上下文理解等领域的评估。