Feb, 2024

MLLM 作为评判者:以视觉 - 语言基准评估多模态 MLLM

TL;DR通过引入一种新的基准测试,MLLMs 作为评判者,本研究揭示了 MLLMs 在评估任务中的能力,并发现 MLLMs 在对人员喜好的评估和排名任务中存在显著差异,同时面临着多样的偏见、幻觉反应和不一致问题,强调了对 MLLMs 进一步改进和研究的迫切需求。