审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

Nov, 2023

审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

Prudent Silence or Foolish Babble? Examining Large Language Models' Responses to the Unknown

Genglin Liu, Xingyao Wang, Lifan Yuan, Yangyi Chen, Hao Peng

TL;DR这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题，旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现，在处理无法回答问题的同时，通过针对训练数据中缺失信息设计的对抗性问答基准测试，经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外，通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此，我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。

Abstract

large language models (LLMs) often struggle when faced with situations where they lack the prerequisite knowledge to generate a sensical response. In these cases, models tend to fabricate and hallucinate, rather than appropriately signaling →

large language models uncertainty adversarial question-answering instruction finetuning uncertainty expression

发现论文，激发创造

大型语言模型能否以准确的文字表达其内在不确定性？

大型语言模型通常无法准确表达其内在的不确定性，因此需要更好的对齐以提高其可信度。

May, 2024

自信过度的大型语言模型隐藏状态中的幻觉无法解答现象

当生成虚幻答案时，大型语言模型表达问题是否无法回答的事实，结果表明，LLMs 的潜在表示中存在空间组织机制，揭示了这些模型以前未被探索的方面。同时，为了更好地遵守事实生成，特别是在问题无法回答的情况下，这些发现为改进解码技术的发展铺平了道路。

Oct, 2023

基于不确定性的 LLMs 弃权改善安全性并减少幻觉

大语言模型 (LLMs) 缺乏可靠性是其实际部署的一个主要障碍。本研究探讨了在问答领域中，通过不确定性度量的不确定度来弃权的可行性和有效性，并使用具有和不具有人类反馈的强化学习（RLHF）的模型和这些不确定度度量，证明通过适当的不确定度度量进行弃权可以提高 LLMs 的可靠性。

Apr, 2024

依赖不可靠之处：语言模型不愿表达不确定性的影响

AI 与人类交互时，自然语言作为默示接口，需要全面地传达语言模型关于回复的不确定性。研究发现，现有的语言模型在回答问题时无法表达不确定性，导致高错误率。人类在实验中过分依赖于语言模型生成的回复，而且存在对不确定性回复的偏见。因此，该研究提出设计建议和缓解策略，以应对人类与语言模型互动中的新一套安全危害。

Jan, 2024

通过利用不确定性感知型上下文学习提高大型语言模型的可靠性

通过引入一种不确定性感知的上下文学习框架，我们改进了大规模语言模型的响应质量，并过滤掉具有较高不确定性的答案，从而提高了模型的准确性。

Oct, 2023

大型语言模型是否知道自己不知道的？

本研究评估了大语言模型的自我认知能力，通过引入自主问答数据集和一种自动化方法来检测不能回答的问题，研究发现大语言模型具有一定的自我认知能力，可以通过上下文学习和指导调整进一步提高其自我认知。但是，研究还发现，这些模型与人类在识别知识限制方面存在明显差距。

May, 2023

抓住你！不要用無法回答的問題來騙我！自校准的大型語言模型用於回答未知問題

通过自体对齐方法，本文提出一种新颖且可扩展的方法以增强大型语言模型对不同类型未知问题的回答能力，不仅能够拒绝回答，还能提供关于无法回答的解释。实验结果验证了该方法在两个数据集上针对四种未知问题类型的三种任务形式方面优于现有基准模型。

Feb, 2024

相信还是不相信你的 LLM

我们在大型语言模型中探索不确定性量化，旨在确定查询结果的不确定性何时较大。我们同时考虑认识论不确定性和偶然性不确定性，从中推论出一种信息论度量，可可靠地检测只有认识论不确定性较大的情况，从模型的输出中可以仅通过一些特殊的迭代提示来计算。这种量化可以检测出幻觉，在单答案和多答案响应中均适用。与许多标准的不确定性量化策略（例如，将响应的对数似然度阈值化）不同，无法检测到多答案情况下的幻觉。我们进行了一系列实验证明了我们的公式的优势。此外，我们的研究还揭示了大型语言模型给定输出的概率如何通过迭代提示来放大，这可能具有独立的研究价值。

Jun, 2024

用语言模型区分可知与不可知

通过大型语言模型中的线性探针和无监督方法，研究确定性认知不确定性与随机认知不确定性的可行性，为多样化实际场景中模型置信度提供更详细的指标。

Feb, 2024

大型语言模型必须学会自知之明

在高风险应用中使用大型语言模型（LLMs）时，我们需要知道何时可以信赖它们的预测。本研究首先论证了仅仅使用提示是不足以实现良好校准的，然后展示了在一个小数据集上进行精调以创建具有良好概括性和小计算开销的不确定性估计的方法。我们还研究了可靠的 LLM 不确定性估计的机制，并通过用户研究展示了不确定性估计如何影响人与 AI 的协作环境中的人类使用 LLMs。

Jun, 2024