Nov, 2024

评估与推进多模态大语言模型的能力透镜

TL;DR本研究针对多模态大语言模型(MLLMs)在视觉感知能力评估中存在的问题,提出了一种统一且稳健的评估基准“AbilityLens”。这一新方法能够综合多种问题类型、领域和评估指标,显著减少评估变异,并揭示开放源代码与闭源模型之间的性能差距。研究结果显示,通过AbilityLens的使用,能够识别当前模型的优缺点,并有效缓解由于能力冲突导致的性能下降。