Jun, 2024

AlignMMBench:对大规模视觉 - 语言模型中的中文多模态对齐进行评估

TL;DR本研究通过引入 AlignMMBench,一个专门为新兴的中文视觉 - 语言模型设计的综合对齐基准,从真实场景和中国互联网来源精心策划,并包括三个类别中的十三个具体任务,以及单轮和多轮对话场景。通过结合一个提示重写策略,AlignMMBench 包括 1054 个图像和 4978 个问答对。为了促进评估流程,我们提出了 CritiqueVLM,一个超越 GPT-4 评估能力的规则校准评估器。最后,我们报告了 AlignMMBench 上代表性 VLM 的性能,提供了不同 VLM 架构的能力和限制的见解。