学会相信自己的感受：在语言模型中利用自我意识缓解幻觉

Jan, 2024

学会相信自己的感受：在语言模型中利用自我意识缓解幻觉

Learning to Trust Your Feelings: Leveraging Self-awareness in LLMs for Hallucination Mitigation

Yuxin Liang, Zhuoyang Song, Hao Wang, Jiaxing Zhang

TL;DR通过使用知识探测、一致性检查和强化学习等方法，我们发现大型语言模型在辨别和表达其内部知识状态方面具有强大的自我意识，然而它们在生成过程中常常无法表达其内部知识，导致虚构。为此，我们提出了一种自动虚构注释工具，通过梦网，该工具将知识探测和一致性检查方法结合起来，以排名虚构偏好数据。通过使用知识偏好作为奖励，我们提出了一种从知识反馈中强化学习（RLKF）的训练框架，利用强化学习增强大型语言模型的真实性和诚实性。我们对多个模型进行的实验证明，RLKF 训练有效地增强了模型利用其内部知识状态的能力，在各种基于知识和诚实性的任务中提高了性能。

Abstract

We evaluate the ability of large language models (LLMs) to discern and express their internal knowledge state, a key factor in countering factual hallucination and ensuring reliable application of LLMs. We observe a robust self-awareness of internal knowledge state in LLMs, evidenced b

large language models knowledge probing factual hallucinations automated hallucination annotation tool reinforcement learning from knowledge feedback (rlkf)

发现论文，激发创造

自我对齐以提高事实准确性：通过自我评估减少 LLMs 中的幻觉

探索使用自我评估和自我知识调整的自对齐方法，以增强大语言模型的事实准确性。

Feb, 2024

通过自我反思来缓解大型语言模型中的幻想

通过与大规模语言模型和数据集合作，本文分析了医学生成型问答系统中幻觉现象的问题，并提出了一种交互自我反思的方法来解决该挑战，最终实验证明该方法在幻觉减少方面优于基线模型。

Oct, 2023

通过自我完善增强的知识检索减轻大型语言模型的幻觉

在医学领域中，通过使用自我完善的知识图谱检索方法（Re-KGR），我们可以显著提高大型语言模型的真实性，降低谬误并减少虚构内容。

May, 2024

拒绝能提升可靠性：使用知识反馈的强化学习训练 LLMs 以拒绝未知问题

通过引入拒绝机制和可靠性度量，本文提出了一种新的对齐框架 RLKF，利用知识反馈动态确定模型的知识边界，并训练可靠的奖励模型来鼓励拒绝超出知识范围的问题，实验证实 RLKF 在显著提高大型语言模型可靠性方面的极大功效。

Mar, 2024

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括 Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了 87% 的平衡准确率，而无需依赖外部知识。

Mar, 2024

消除 LLM 幻觉需要重新思考泛化

通过广泛系统实验，我们展示了传统方法无法解释 LLMs 在实践中为什么会产生幻觉，并通过大量内存专家的混合来增强 LLMs，可以轻松地记忆大数据集，为去除幻觉设计了 Lamini-1 模型。

Jun, 2024

基于大型语言模型内部状态的非监督实时幻觉检测

LLMs 出现的幻觉指的是 LLMs 产生的回应在逻辑上是连贯的，但事实上是不准确的。本文引入了一种名为 MIND 的无监督训练框架，利用 LLMs 的内部状态实时检测幻觉，无需手动注释，并提出了用于评估多个 LLMs 幻觉检测的新基准 HELM。我们的实验证明，MIND 在幻觉检测方面优于现有的最先进方法。

Mar, 2024

LLM 对幻觉是否有了解？LLM 隐藏状态的实证研究

大型语言模型 (LLMs) 可能会产生虚假答案，本研究旨在探讨 LLMs 是否知晓此虚假现象，并研究其反应和程度。通过实验框架检查 LLM 在回答问题和产生虚假回答时的隐藏状态差异，并得出实证发现发现，LLMs 在处理真实回答和虚假回答时有所不同，然后应用各种模型解释技术进一步理解并解释这些发现，同时利用 LLM 隐藏表示空间的引导推导出减少幻觉的潜力。本研究揭示了 LLMs 反应幻觉的答案制备过程，并提出减少其发生频率的方法。

Feb, 2024

大型语言模型中幻觉缓解技术的综合调查

这篇论文综述了 32 种技术，旨在减轻大型语言模型中的幻觉问题，其中包括检索增强生成、知识检索、CoNLI 和 CoVe 等方法，并提出了基于数据集利用、常见任务、反馈机制和检索器类型等参数的分类方法，以区分专门设计用于解决大型语言模型幻觉问题的各种方法。此外，还分析了这些技术中存在的挑战和局限性，为未来研究提供了坚实的基础。

Jan, 2024

增强基于不确定性的错觉检测与更强的关注

本文提出了一种新颖的无参考、基于不确定性的大语言模型 (LLM) 幻觉检测方法，通过关注给定文本中最具信息和重要性的关键词、历史上不可靠的标记以及标记属性（如类型和频率），实现了最新的检测方法，消除了对额外信息的需求。

Nov, 2023