Nov, 2023

一种适用于 MLLMs 幻觉评估的无 LLM 多维基准

TL;DR本研究使用 AMBER 多维度基准评估模型生成任务和判别任务中的多模态语言模型 (Multi-modal Large Language Models, MLLMs) 存在的幻觉问题,并对主流 MLLMs 进行全面评估和详细分析,并提出减轻幻觉问题的指导建议。