Aug, 2024

多模态大语言模型基准调查

TL;DR本研究针对多模态大语言模型(MLLMs)在多个应用领域(如视觉问答和理解推理)的评价标准进行全面回顾,填补了现有文献在基准和评估方面的空白。该论文汇总了180个基准,探讨了评价方法的局限性,并指出评估应视为支持MLLMs发展的关键学科。研究结果将为未来MLLMs的评估与发展提供重要借鉴。