May, 2023
HELMA: 面向大型语言模型的大规模幻想评估基准测试
HELMA: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models
TL;DR本研究引入了 Hallucination Evaluation for Large Language Models(HELMA)基准来评估 LLM 的幻觉表现,并提出了基于 ChatGPT 的取样-过滤框架来生成大规模的,人类标注的幻觉数据集,并指出 ChatGPT 生成幻觉的概率较大,现有的 LLM 在识别文本幻觉方面面临巨大挑战,但可通过提供外部知识或添加推理步骤来改善表现。