HypoTermQA: 用于评估 LLMs 产生假设性术语倾向的假设性术语数据集

ACLFeb, 2024

HypoTermQA: 用于评估 LLMs 产生假设性术语倾向的假设性术语数据集

HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination Tendency of LLMs

Cem Uluoglakci, Tugba Taskaya Temizel

TL;DR介绍了一个自动可扩展的框架，将大型语言模型（LLM）的幻觉倾向与高效的幻觉检测相结合，提供了测试和改进 LLMs 的机会，并有潜力生成特定领域的基准数据集。

Abstract

hallucinations pose a significant challenge to the reliability and alignment of large language models (LLMs), limiting their widespread acceptance beyond chatbot applications. Despite ongoing efforts,

hallucinations large language models hallucination detection benchmarking hypotermqa benchmarking dataset

发现论文，激发创造

DefAn: LLMs 幻觉评估的确定性答案数据集

这篇论文介绍了一份包含超过 75,000 个提示的详尽基准数据集，用于评估大型语言模型（LLMs）的性能，揭示了虚构产生率、提示错位产生率和一致性等方面的实验结果，并证明了数据集的有效性和作为 LLMs 性能评估综合基准的重要性。

Jun, 2024

AutoHall: 大型语言模型的自动幻觉数据集生成

该论文提出了 AutoHall 方法，通过自相矛盾的方式自动构建模型特定的幻觉数据集，然后基于这些数据集实现了无资源和黑盒幻觉检测方法，对开源和闭源大型语言模型进行了实验证明，在幻觉检测性能上优于现有基准模型，并且发现了不同模型之间的幻觉比例和类型的差异。

Sep, 2023

评估用于大型视觉语言模型的幻觉基准的质量

大规模视觉语言模型（LVLMs）的幻觉问题是当前研究的主要关注领域，本研究提出了一种用于评估幻觉质量的基准测量框架（HQM），通过可靠性和有效性的指标对现有幻觉基准进行评估，并构建了一种高质量的 LVLMs 幻觉基准（HQH）。研究在多个代表性 LVLMs 模型上进行了广泛评估，揭示了现有模型中存在的幻觉问题。

Jun, 2024

DelucionQA: 领域特定问答中的幻觉检测

大型语言模型（LLM）生成的文本中存在幻觉现象，通过信息检索来减少幻觉数量，但仍存在各种原因导致幻觉产生。为了促进这个方向的研究，我们引入了一个复杂的数据集 DelucionQA，用于捕捉检索增强 LLM 在特定领域的问答任务中所产生的幻觉，并提出了一系列幻觉检测方法作为未来研究的基准。分析和案例研究还提供了有关目标场景中幻觉现象的宝贵见解。

Dec, 2023

HaluEval-Wild: 评估野外语言模型的幻觉

为了评估大规模语言模型 (LLMs) 在动态的现实世界环境中产生幻觉的能力，我们引入了 HalEval-Wild，这是一个特别设计的评估幻觉的基准测试。通过收集现有的用户 - LLM 交互数据集中具有挑战性的用户查询，并使用强大的 GPT-4 模型和检索增强生成 (RAG) 进行参考答案综合，我们对 LLMs 产生的幻觉进行了细致的分析，从而提供了一种改善 LLM 可靠性的新方法。

Mar, 2024

通过自我反思来缓解大型语言模型中的幻想

通过与大规模语言模型和数据集合作，本文分析了医学生成型问答系统中幻觉现象的问题，并提出了一种交互自我反思的方法来解决该挑战，最终实验证明该方法在幻觉减少方面优于基线模型。

Oct, 2023

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括 Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了 87% 的平衡准确率，而无需依赖外部知识。

Mar, 2024

幻觉排行榜 - 量化大型语言模型中的幻觉

该论文介绍了幻觉排行榜，一个旨在定量衡量和比较每个模型产生幻觉倾向的开放性倡议，通过一系列综合评估模型的基准测试，如准确性和忠实度等方面，涵盖了问答、摘要和阅读理解等不同任务，为研究人员和实践者指导选择最可靠的模型。

Apr, 2024

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从 LLM 幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来 LLM 幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

HalluDial: 自动对话层次的大规模幻觉评估基准

提出 HalluDial，这是首个用于自动对话级幻觉评估的综合大规模基准测试。HalluDial 包含了以上文提到的内容，并包括了分为自发和感应性的幻觉情景，并涵盖了实际性幻觉和忠实性幻觉。

Jun, 2024