审慎行事:大型语言模型下的不确定性测量的探索性研究
通过整合不确定性量化的新型基准评估方法,本研究发现:准确性较高的大型语言模型可能显示出较低的确定性,较大规模的语言模型可能与较小规模的模型相比具有更大的不确定性,指令微调倾向于增加语言模型的不确定性。这些结果强调了在语言模型评估中整合不确定性的重要性。
Jan, 2024
在这项研究中,我们尝试量化大型语言模型(LLM)解释的不确定性。为此,我们提出了两个新的度量标准 ——“口头化不确定性” 和 “探测不确定性”,用于量化生成解释的不确定性。我们的实证分析揭示了口头化不确定性不是可靠的解释置信度的估计,而探测不确定性的估计与解释的忠实度相关,较低的不确定性对应于较高的忠实度。这项研究为量化 LLM 解释的不确定性带来了洞察,有助于更广泛地探讨基础模型的可靠性。
Nov, 2023
通过引入一种不确定性感知的上下文学习框架,我们改进了大规模语言模型的响应质量,并过滤掉具有较高不确定性的答案,从而提高了模型的准确性。
Oct, 2023
通过使用标记的数据集,本文研究了针对大型语言模型(LLMs)的不确定性估计和校准问题,提出了一个监督学习方法来估计 LLMs 响应的不确定性,并展示了利用隐藏激活对不同任务进行增强不确定性估计的好处和在超出分布范围的情况下的鲁棒性,同时区分了不确定性估计任务和不确定性校准任务,并表明更好的不确定性估计模式会导致更好的校准性能。
Apr, 2024
在高风险应用中使用大型语言模型(LLMs)时,我们需要知道何时可以信赖它们的预测。本研究首先论证了仅仅使用提示是不足以实现良好校准的,然后展示了在一个小数据集上进行精调以创建具有良好概括性和小计算开销的不确定性估计的方法。我们还研究了可靠的 LLM 不确定性估计的机制,并通过用户研究展示了不确定性估计如何影响人与 AI 的协作环境中的人类使用 LLMs。
Jun, 2024
我们在大型语言模型中探索不确定性量化,旨在确定查询结果的不确定性何时较大。我们同时考虑认识论不确定性和偶然性不确定性,从中推论出一种信息论度量,可可靠地检测只有认识论不确定性较大的情况,从模型的输出中可以仅通过一些特殊的迭代提示来计算。这种量化可以检测出幻觉,在单答案和多答案响应中均适用。与许多标准的不确定性量化策略(例如,将响应的对数似然度阈值化)不同,无法检测到多答案情况下的幻觉。我们进行了一系列实验证明了我们的公式的优势。此外,我们的研究还揭示了大型语言模型给定输出的概率如何通过迭代提示来放大,这可能具有独立的研究价值。
Jun, 2024
广泛应用的大型语言模型(LLM)能够生成具有说服力但不正确的结果,存在误导用户的风险。为减少过度依赖,有呼吁要求 LLM 向最终用户传达其不确定性。然而,有关用户如何感知和行动 LLM 的不确定表达的实证研究很少。通过大规模的、预先注册的人体实验(N=404),我们探索了这个问题,参与者回答医学问题,带或不带来自一个虚构的 LLM 增强搜索引擎的回复。通过行为和自我报告的测量,我们研究了不同的自然语言不确定表达方式对参与者信赖、信任和任务整体表现的影响。我们发现第一人称表达(如 “我不确定,但是...”)降低了参与者对系统的信心和同意系统答案的倾向,同时提高了参与者的准确性。初步分析表明,这种增加可以归因于对错误答案的减少(但并非完全消除)的过度依赖。虽然我们观察到了不确定性从一般角度表达的类似效果(如 “不清楚,但是...”),但这些效果较弱且不具有统计学意义。我们的发现表明,使用自然语言的不确定表达可能是减少对 LLM 过度依赖的有效方法,但使用的确切语言很重要。这凸显了在部署大规模 LLM 之前进行用户测试的重要性。
May, 2024
AI 与人类交互时,自然语言作为默示接口,需要全面地传达语言模型关于回复的不确定性。研究发现,现有的语言模型在回答问题时无法表达不确定性,导致高错误率。人类在实验中过分依赖于语言模型生成的回复,而且存在对不确定性回复的偏见。因此,该研究提出设计建议和缓解策略,以应对人类与语言模型互动中的新一套安全危害。
Jan, 2024
该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量,提出几个置信度 / 不确定度统计度量标准,并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。
May, 2023