DefAn: LLMs 幻觉评估的确定性答案数据集

Jun, 2024

DefAn: LLMs 幻觉评估的确定性答案数据集

DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation

A B M Ashikur Rahman, Saeed Anwar, Muhammad Usman, Ajmal Mian

TL;DR这篇论文介绍了一份包含超过 75,000 个提示的详尽基准数据集，用于评估大型语言模型（LLMs）的性能，揭示了虚构产生率、提示错位产生率和一致性等方面的实验结果，并证明了数据集的有效性和作为 LLMs 性能评估综合基准的重要性。

Abstract

large language models (LLMs) have demonstrated remarkable capabilities, revolutionizing the integration of AI in daily life applications. However, they are prone to hallucinations, generating claims that contradict established facts, deviating from prompts, and producing inconsistent r

large language models hallucination benchmark dataset llms performance comprehensive benchmark

发现论文，激发创造

HypoTermQA: 用于评估 LLMs 产生假设性术语倾向的假设性术语数据集

介绍了一个自动可扩展的框架，将大型语言模型（LLM）的幻觉倾向与高效的幻觉检测相结合，提供了测试和改进 LLMs 的机会，并有潜力生成特定领域的基准数据集。

Feb, 2024

HaluEval-Wild: 评估野外语言模型的幻觉

为了评估大规模语言模型 (LLMs) 在动态的现实世界环境中产生幻觉的能力，我们引入了 HalEval-Wild，这是一个特别设计的评估幻觉的基准测试。通过收集现有的用户 - LLM 交互数据集中具有挑战性的用户查询，并使用强大的 GPT-4 模型和检索增强生成 (RAG) 进行参考答案综合，我们对 LLMs 产生的幻觉进行了细致的分析，从而提供了一种改善 LLM 可靠性的新方法。

Mar, 2024

Med-HALT：大型语言模型医学领域幻变测试

这篇研究论文关注于大型语言模型在医疗领域中所带来的幻觉挑战。通过提出一个新的基准和数据集（Med-HALT），该研究评估了几种先进的语言模型，并揭示了它们之间的显著差异。这项工作旨在为医疗保健中的语言模型的开发做出贡献，提高其安全性和可靠性。

Jul, 2023

AutoHall: 大型语言模型的自动幻觉数据集生成

该论文提出了 AutoHall 方法，通过自相矛盾的方式自动构建模型特定的幻觉数据集，然后基于这些数据集实现了无资源和黑盒幻觉检测方法，对开源和闭源大型语言模型进行了实验证明，在幻觉检测性能上优于现有基准模型，并且发现了不同模型之间的幻觉比例和类型的差异。

Sep, 2023

DiaHalu: 大型自然语言模型的对话级幻觉评估基准

这项研究提出 DiaHalu，这是我们所知的第一个基于对话级别的幻觉评估基准。我们整合了收集的主题，促进了两个 ChatGPT3.5 之间的对话，并对不符合人类语言约定的内容进行手动修改，然后再由语言模型重新生成，模拟真实的人机互动场景。DiaHalu 覆盖了四个常见的多轮对话领域和五个幻觉亚类，从事实和忠实度幻觉进行扩展。在该数据集上，一些知名的大型语言模型和检测方法的实验证明 DiaHalu 是一个具有挑战性的基准，对进一步的研究具有重要价值。

Mar, 2024

金融决策者的减少幻觉的数据到答案框架

通过利用 Langchain 框架将数据表转化为分层文本数据块，本研究提出了一种新颖的方法来解决数据表重型领域（如金融决策）中的自动问答问题，实现针对各种用户查询生成定制化的语言模型提示，并在幻觉和响应置信度方面进行了多度量标评估。该系统在用户查询响应方面取得了超过 90% 的置信度，并可应用于其他分析领域以确保最佳幻觉控制保障。

Nov, 2023

HalluDial: 自动对话层次的大规模幻觉评估基准

提出 HalluDial，这是首个用于自动对话级幻觉评估的综合大规模基准测试。HalluDial 包含了以上文提到的内容，并包括了分为自发和感应性的幻觉情景，并涵盖了实际性幻觉和忠实性幻觉。

Jun, 2024

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括 Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了 87% 的平衡准确率，而无需依赖外部知识。

Mar, 2024

大型视觉语言模型中的幻觉检测与预防

介绍 M-HalDetect，一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法，成功减少了幻觉率，为视觉问题回答任务提供了重要的改进。

Aug, 2023

PhD：一个带提示的视觉幻觉评估数据集

通过分析 Intrinsic Vision-Language Hallucination（IVL-Hallu）问题的不同类型、原因和反映，我们提出了几种新颖的 IVL-Hallu 任务并将其分为四种类型：物体幻觉、属性幻觉、多模态冲突幻觉和反对常识幻觉。在这个研究中，我们提出了一个更具挑战性的基准测试来评估和探索 IVL-Hallu，以便为未来的 IVL-Hallu 和 LVLM 研究提供帮助。

Mar, 2024