Jun, 2024

ConMe: 对现代 VLMs 的组合推理重新思考的评估

TL;DR我们提出了一种新的数据生成流水线 ConMe,利用视觉 - 语言模型 (VLMs) 产生具有挑战性的复合推理问题,并通过与同类模型协同对话揭示其弱点,建立了一个稳健的复合推理基准,验证表明我们的基准相对于以前的基准提高了高达 33% 的复合推理性能。