思维周期:通过稳定解释衡量 LLM 的信心
在这项研究中,我们尝试量化大型语言模型(LLM)解释的不确定性。为此,我们提出了两个新的度量标准 ——“口头化不确定性” 和 “探测不确定性”,用于量化生成解释的不确定性。我们的实证分析揭示了口头化不确定性不是可靠的解释置信度的估计,而探测不确定性的估计与解释的忠实度相关,较低的不确定性对应于较高的忠实度。这项研究为量化 LLM 解释的不确定性带来了洞察,有助于更广泛地探讨基础模型的可靠性。
Nov, 2023
大型语言模型为了赢得人类的信任,需要具备良好的校准能力,准确评估和传达其预测的正确概率。本研究通过实验研究了人类用户对于语言模型可信度的感知和个性化解释对此感知的影响,发现默认解释会导致用户过高估计模型的信心和准确性,而更准确反映模型内部可信度的解释能够对用户感知产生显著影响,增强用户对语言模型输出的信任和准确性评估。透明传达语言模型可信度在高风险应用中尤为重要,特别是需要理解人工智能生成信息可靠性的场景。
Jan, 2024
我们在大型语言模型中探索不确定性量化,旨在确定查询结果的不确定性何时较大。我们同时考虑认识论不确定性和偶然性不确定性,从中推论出一种信息论度量,可可靠地检测只有认识论不确定性较大的情况,从模型的输出中可以仅通过一些特殊的迭代提示来计算。这种量化可以检测出幻觉,在单答案和多答案响应中均适用。与许多标准的不确定性量化策略(例如,将响应的对数似然度阈值化)不同,无法检测到多答案情况下的幻觉。我们进行了一系列实验证明了我们的公式的优势。此外,我们的研究还揭示了大型语言模型给定输出的概率如何通过迭代提示来放大,这可能具有独立的研究价值。
Jun, 2024
通过引入一种不确定性感知的上下文学习框架,我们改进了大规模语言模型的响应质量,并过滤掉具有较高不确定性的答案,从而提高了模型的准确性。
Oct, 2023
本研究探讨了不需要模型微调或专有信息的自信度引出方法,通过基于词汇、一致性和混合等三种类别的方法的基准评估和评估,揭示了语言模型的自信度过高以及一些方法的优点。
Jun, 2023
在高风险应用中使用大型语言模型(LLMs)时,我们需要知道何时可以信赖它们的预测。本研究首先论证了仅仅使用提示是不足以实现良好校准的,然后展示了在一个小数据集上进行精调以创建具有良好概括性和小计算开销的不确定性估计的方法。我们还研究了可靠的 LLM 不确定性估计的机制,并通过用户研究展示了不确定性估计如何影响人与 AI 的协作环境中的人类使用 LLMs。
Jun, 2024
该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量,提出几个置信度 / 不确定度统计度量标准,并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。
May, 2023
利用黑盒或查询访问大型语言模型,通过工程化新特征并训练一个可解释的逻辑回归模型,我们提出了一个简单且可扩展的框架来估算模型响应的置信度。我们的实证研究表明,我们的简单框架在 TriviaQA、SQuAD、CoQA 和自然提问等基准数据集上,在估算 flan-ul2、llama-13b 和 mistral-7b 的置信度时,不仅稳定地优于现有的黑盒置信度估算方法,有时甚至在 AUROC 上提高超过 10%。此外,我们的可解释方法揭示了预测置信度的特征,使得我们为一个语言模型构建的置信度模型在给定数据集上能够泛化到其他语言模型。
Jun, 2024
通过使用标记的数据集,本文研究了针对大型语言模型(LLMs)的不确定性估计和校准问题,提出了一个监督学习方法来估计 LLMs 响应的不确定性,并展示了利用隐藏激活对不同任务进行增强不确定性估计的好处和在超出分布范围的情况下的鲁棒性,同时区分了不确定性估计任务和不确定性校准任务,并表明更好的不确定性估计模式会导致更好的校准性能。
Apr, 2024