Mar, 2024

HaluEval-Wild: 评估野外语言模型的幻觉

TL;DR为了评估大规模语言模型 (LLMs) 在动态的现实世界环境中产生幻觉的能力,我们引入了 HalEval-Wild,这是一个特别设计的评估幻觉的基准测试。通过收集现有的用户 - LLM 交互数据集中具有挑战性的用户查询,并使用强大的 GPT-4 模型和检索增强生成 (RAG) 进行参考答案综合,我们对 LLMs 产生的幻觉进行了细致的分析,从而提供了一种改善 LLM 可靠性的新方法。