BriefGPT.xyz
Aug, 2024
重新审视多模态大型语言模型评估
Revisiting Multi-Modal LLM Evaluation
HTML
PDF
Jian Lu, Shikhar Srivastava, Junyu Chen, Robik Shrestha, Manoj Acharya...
TL;DR
本研究针对当前多模态大型语言模型(MLLM)评估中存在的数据集问题,如偏见和虚假关联,提出了一种新方法。我们首次使用改进的数据集评估多个MLLM,揭示了许多模型的潜在缺陷,并且我们的代码已整合于LAVIS框架中,便于今后模型的快速评估。
Abstract
With the advent of
Multi-Modal
Large Language Models
(MLLMs), datasets used for
Visual Question Answering
(VQA) and referring expression c
→