通过可转移的对抗性攻击实现对齐大型语言模型的自动幻觉评估

Oct, 2023

通过可转移的对抗性攻击实现对齐大型语言模型的自动幻觉评估

Automatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks

Xiaodong Yu, Hao Cheng, Xiaodong Liu, Dan Roth, Jianfeng Gao

TL;DR大型语言模型 (LLM) 中的幻觉问题已取得显著进展，但如何评估 LLMs 的可靠性仍然具有挑战性。本文通过生成评估数据的方法对现有数据进行适当修改，以使用 AutoDebug 框架生成可转移的对抗攻击示例，并研究这些示例触发 LLMs 幻觉行为的程度。实验结果表明，LLMs 在两类问答场景中易产生幻觉，并且我们的方法生成的对抗示例在所有考虑到的 LLMs 之间可转移。

Abstract

Although remarkable progress has been achieved in preventing large language model (llm) hallucinations using instruction tuning and retrieval augmentation, it remains challenging to measure the reliability of LLM

large language model llm hallucinations evaluation data adversarial examples

发现论文，激发创造

AutoHall: 大型语言模型的自动幻觉数据集生成

该论文提出了 AutoHall 方法，通过自相矛盾的方式自动构建模型特定的幻觉数据集，然后基于这些数据集实现了无资源和黑盒幻觉检测方法，对开源和闭源大型语言模型进行了实验证明，在幻觉检测性能上优于现有基准模型，并且发现了不同模型之间的幻觉比例和类型的差异。

Sep, 2023

通过对抗性指导调节来缓解大型多模式模型的对话幻觉

本研究证明了大型多模型（LMMs) 出现幻觉的问题可以通过采用对抗式攻击的新颖敌对性问题生成器生成具有幻觉对话的数据集，并且通过对增强的多模式指令遵循数据集进行鲁棒的微调，成功地减少了对话幻觉。

Mar, 2024

LLM 谎言：病态幻觉不是错误，而是对抗性示例的特征

大型语言模型（LLMs）包括 GPT-3.5、LLaMA 和 PaLM 似乎具有丰富的知识并能够适应多种任务，但我们仍无法完全信任它们的答案，因为 LLMs 容易产生幻觉，即捏造不存在的事实来欺骗用户。本文通过证明无意义的随机标记可以引发 LLMs 产生幻觉来重新思考幻觉可能是对抗性示例的另一种视角，并且与常规对抗性示例具有相似特征作为 LLMs 的基础特征，因此我们提出了一种自动幻觉触发方法作为对抗性攻击，并探索了受攻击的对抗性提示的基本特征并提出了一种简单而有效的防御策略。我们的代码已在 GitHub 上发布。

Oct, 2023

通过自我反思来缓解大型语言模型中的幻想

通过与大规模语言模型和数据集合作，本文分析了医学生成型问答系统中幻觉现象的问题，并提出了一种交互自我反思的方法来解决该挑战，最终实验证明该方法在幻觉减少方面优于基线模型。

Oct, 2023

HaluEval-Wild: 评估野外语言模型的幻觉

为了评估大规模语言模型 (LLMs) 在动态的现实世界环境中产生幻觉的能力，我们引入了 HalEval-Wild，这是一个特别设计的评估幻觉的基准测试。通过收集现有的用户 - LLM 交互数据集中具有挑战性的用户查询，并使用强大的 GPT-4 模型和检索增强生成 (RAG) 进行参考答案综合，我们对 LLMs 产生的幻觉进行了细致的分析，从而提供了一种改善 LLM 可靠性的新方法。

Mar, 2024

AUTOHALLUSION：视觉语言模型的自动生成幻觉基准

大型视觉 - 语言模型存在幻觉问题，该研究开发了自动生成幻觉的基准测试方法 AUTOHALLUSION，通过识别上下文线索并以此生成图像和问题，揭示了幻觉的常见失败模式和原因。对顶级视觉 - 语言模型进行综合评估发现，在 AUTOHALLUSION 的合成和真实世界数据集上，幻觉诱导成功率达到了 97.7% 和 98.7%，为解决幻觉问题提供了新的思路。

Jun, 2024

金融决策者的减少幻觉的数据到答案框架

通过利用 Langchain 框架将数据表转化为分层文本数据块，本研究提出了一种新颖的方法来解决数据表重型领域（如金融决策）中的自动问答问题，实现针对各种用户查询生成定制化的语言模型提示，并在幻觉和响应置信度方面进行了多度量标评估。该系统在用户查询响应方面取得了超过 90% 的置信度，并可应用于其他分析领域以确保最佳幻觉控制保障。

Nov, 2023

评估中文大型语言模型中的幻觉

在这篇论文中，我们建立了一个名为 HalluQA 的基准，用于衡量中文大型语言模型中的幻觉现象。HalluQA 包含 450 个精心设计的对抗性问题，涵盖多个领域，并考虑了中国的历史文化、习俗和社会现象。我们在构建 HalluQA 过程中考虑了两种类型的幻觉：模仿性虚假和事实错误，并基于 GLM-130B 和 ChatGPT 构建对抗样本。为了评估，我们使用 GPT-4 设计了一种自动评估方法来判断模型输出是否存在幻觉。我们对 24 个大型语言模型进行了广泛实验，包括 ERNIE-Bot、Baichuan2、ChatGLM、Qwen、SparkDesk 等。在这 24 个模型中，有 18 个实现了低于 50% 的非幻觉率。这表明 HalluQA 具有很高的挑战性。我们分析了不同类型模型中主要类型的幻觉及其原因。此外，我们讨论了不同类型模型应优先考虑哪些类型的幻觉。

Oct, 2023

HypoTermQA: 用于评估 LLMs 产生假设性术语倾向的假设性术语数据集

介绍了一个自动可扩展的框架，将大型语言模型（LLM）的幻觉倾向与高效的幻觉检测相结合，提供了测试和改进 LLMs 的机会，并有潜力生成特定领域的基准数据集。

Feb, 2024

大型语言模型的零资源幻觉预防

通过引入一种名为【自我检测】的新技术，本研究提出了一种预防性策略来减少大型语言模型中的 “幻觉” 现象，实验证明该技术在幻觉检测方面表现优异，对于提高语言助手的可靠性、适用性和解释性具有重要意义。

Sep, 2023