ACLApr, 2024

ALOHa: 一种新的用于字幕模型中幻觉的评测指标

TL;DR尽管现在的先进多模态预训练模型能产生图像的描述,但仍存在错误的描述,如对场景中不存在的物体的错误描绘。本文提出了一种现代化的开放词汇度量标准 ALOHa,它利用大型语言模型 (LLMs) 来衡量物体的虚构情况。我们通过使用 LLM 从候选描述中提取可基准化的物体,测量它们与参考描述和物体检测中的参考物体的语义相似度,并使用匈牙利匹配算法生成最终的虚构评分。我们展示了在 HAT 上,ALOHa 对相对于 CHAIR 这个以 MS COCO 物体和同义词为基准的先进描绘虚构评估指标能正确识别出 13.6% 更多的虚构物体,以及在 nocaps 上能识别出相对于 MS COCO 类别范围更广的物体的增长率为 30.8%。我们的代码可在此网址上获得。