Feb, 2024

Hal-Eval: 一个用于大型视觉语言模型的通用且精细的幻觉评估框架

TL;DR该研究提出了一种包括事件妄想在内的妄想细分分类方法,并利用高级视觉语言模型生成和过滤各类妄想数据,在通用评估框架中集成鉴别和生成式评估方法,从而评估大规模视觉语言模型处理妄想的能力,为评估妄想提供了可靠而全面的工具。