Nov, 2023

大型语言模型作为自动标定器用于基准测试视觉语言模型

TL;DR通过自动数据整理和评估,利用优秀的语言模型和视觉语言模型衡量对齐 VLMs 与人类智能的能力,我们提出了 Auto-Bench 作为一个灵活、可扩展和全面的评估 benchmark。