LM-Polygraph:语言模型的不确定性估计
使用新的基准测试实现了对大规模语言模型在不确定性量化和归一化技术方面的评估,旨在解决其在文本生成任务中的不安全性和低质量输出等挑战。
Jun, 2024
我们介绍了一种新颖方法,利用大型语言模型(LLM)结合不确定性感知模块,提供生成答案的置信度评分,从而在图处理中实现高准确性和解释性。我们在两个图处理任务上的实验证明,通过参数高效微调,LLM 在十个不同的基准数据集上胜过最先进的算法。此外,为了解决可解释性的挑战,我们提出了基于扰动的不确定性估计方法,并使用校准方案来量化生成答案的置信度得分,我们的置信度度量在预测由 LLM 生成的答案的正确性方面在十个数据集中的七个上达到了 0.8 或更高的 AUC。
Mar, 2024
该论文评估了语言和视觉 - 语言模型的可靠性,并提出了新的日本不确定场景数据集以及测量校准误差的方法。结果表明,语言和视觉 - 语言模型都存在较高的校准误差,并且大部分时间都表现出过度自信,说明其对不确定性估计的能力较弱。此外,研究还发展了回归任务的提示方法,并证明视觉 - 语言模型在生成均值 / 标准差和 95% 置信区间时存在校准不良。
May, 2024
大语言模型(LLMs)在各种 NLP 任务中展示了非凡的能力。我们的研究首先强调了目前 UQ 方法在处理长文本生成时的局限性,然后介绍了 Luq,一种专门设计用于长文本的基于采样的 UQ 方法。我们的发现表明,Luq 在与模型的准确性分数相关性方面优于现有的基准方法。通过 Luq 作为 UQ 工具,我们调查了几个流行 LLMs 的响应信心谱行为模式及其与事实性响应的相互作用。我们发现 LLMs 在生成罕见事实的长文本上缺乏信心,而事实准确的模型(如 GPT-4)倾向于拒绝其不确定的问题。为了进一步提高 LLM 响应的事实准确性,我们提出了一种称为 Luq-Ensemble 的方法,该方法对来自多个模型的响应进行集成并选择不确定性最小的响应。这种集成方法极大地提高了响应的事实性,超越了最佳独立 LLM 的表现。
Mar, 2024
最近几年,大型语言模型(LLMs)已经变得越来越普遍,提供了卓越的文本生成能力。然而,一个迫切的挑战是它们倾向于做出自信的错误预测,突显出在 LLMs 中的不确定性量化(UQ)的重要性。尽管以往的研究主要集中在解决 aleatoric 不确定性,但是包括 epistemic 不确定性在内的整个不确定性范围仍然不够被探索。通过采样与扰动相结合的 UQ 方法(SPUQ),我们提出了一个新颖的 UQ 方法,旨在解决 aleatoric 和 epistemic 不确定性。该方法包括为 LLM 输入生成一组扰动,对于每个扰动进行输出采样,并结合一个聚合模块来推广文本生成任务的采样不确定性方法。通过对各种数据集进行广泛的实验,我们调查了不同的扰动和聚合技术。我们的研究结果显示模型不确定性校准得到了显著改进,平均预期校准误差(ECE)减少了 50%。我们的研究结果表明,我们提出的 UQ 方法为增强 LLMs 的可靠性和可信度迈出了有希望的一步。
Mar, 2024
通过整合不确定性量化的新型基准评估方法,本研究发现:准确性较高的大型语言模型可能显示出较低的确定性,较大规模的语言模型可能与较小规模的模型相比具有更大的不确定性,指令微调倾向于增加语言模型的不确定性。这些结果强调了在语言模型评估中整合不确定性的重要性。
Jan, 2024
该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量,提出几个置信度 / 不确定度统计度量标准,并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。
May, 2023
在这项研究中,我们尝试量化大型语言模型(LLM)解释的不确定性。为此,我们提出了两个新的度量标准 ——“口头化不确定性” 和 “探测不确定性”,用于量化生成解释的不确定性。我们的实证分析揭示了口头化不确定性不是可靠的解释置信度的估计,而探测不确定性的估计与解释的忠实度相关,较低的不确定性对应于较高的忠实度。这项研究为量化 LLM 解释的不确定性带来了洞察,有助于更广泛地探讨基础模型的可靠性。
Nov, 2023