Jul, 2024

CompBench:多模态大语言模型的比较推理基准

TL;DR本研究针对人工通用智能在比较推理能力方面的缺失,提出了CompBench基准,以评估多模态大语言模型的比较能力。通过对40K图像对的精心策划和多维度问题设计,揭示了当前模型在比较能力上的显著不足,为未来改进提供了坚实的基础。