大型语言模型中的凸包分析不确定性量化

Jun, 2024

大型语言模型中的凸包分析不确定性量化

Uncertainty Quantification in Large Language Models Through Convex Hull Analysis

Ferhat Ozgur Catak, Murat Kuzlu

TL;DR该研究提出了一种新颖的几何方法来评估大语言模型（LLM）的不确定性，利用凸包分析来度量模型输出的离散度和可变性，该方法通过将回答转化为高维嵌入，并使用主成分分析（PCA）将其投影到二维空间。实验结果表明，LLMs 模型的不确定性取决于提示的复杂性、模型和温度设置。

Abstract

uncertainty quantification approaches have been more critical in large language models (LLMs), particularly high-risk applications requiring reliable outputs. However, traditional methods for →

uncertainty quantification language models geometric approach convex hull analysis model uncertainty

发现论文，激发创造

基于训练集凸包的深度学习系统不确定性测量

用深度学习来解决在安全关键领域中不确定性的问题，通过选择可能导致模型发生故障的数据并提出新的测试选择方法，基于训练数据的凸包来分析模型的不确定性，并与现有的测试选择指标进行对比，结果显示该方法能有效发现有异常模式的样本。

May, 2024

语义密度：大型语言模型中语义空间的不确定性量化

通过语义密度方法，解决大型语言模型在安全关键场景中的不确定性问题，提高可信度和性能表现。

May, 2024

生成有信心：针对黑盒大型语言模型的不确定性量化

该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量，提出几个置信度 / 不确定度统计度量标准，并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。

May, 2023

基于定向蕴涵图和主张级响应增强的 LLM 不确定性量化

该论文提出了一种评估大型语言模型不确定性的新方法，通过构建由蕴含概率组成的方向图，并创新地进行随机行走拉普拉斯过程以捕捉方向不稳定性，然后通过拉普拉斯过程得到的特征值来聚合不确定性。此外，该论文识别了原始回应集中的模糊问题，并提出了一种补充方法以缓解此问题，我们进行了大量实证实验并证明了我们提出的解决方案的优越性。

Jul, 2024

核心语言熵：基于语义相似性的 LLMs 细粒度不确定性量化

在大型语言模型中，不确定性量化对于关系到安全性和可靠性的应用至关重要。我们提出了 Kernel Language Entropy（KLE），这是一种用于估计白盒和黑盒语言模型中不确定性的新方法，它能够捕捉到模型输出的语义不确定性，并通过 von Neumann 熵来量化不确定性。实验证明，KLE 在多个自然语言生成数据集和语言模型架构上提供了更好的不确定性量化性能。

May, 2024

朝标签嵌入方向 -- 评估分类的难度

对卫星影像的分类中，使用多个标记者的多次标记结果，通过贝叶斯方法中的 Dirichlet-Multinomial 模型，在 K 维空间中对标记结果进行嵌入，以解决不确定性量化和分类中的模糊性问题。

Nov, 2023

利用大型语言模型驾驭不确定性感知的图处理

我们介绍了一种新颖方法，利用大型语言模型（LLM）结合不确定性感知模块，提供生成答案的置信度评分，从而在图处理中实现高准确性和解释性。我们在两个图处理任务上的实验证明，通过参数高效微调，LLM 在十个不同的基准数据集上胜过最先进的算法。此外，为了解决可解释性的挑战，我们提出了基于扰动的不确定性估计方法，并使用校准方案来量化生成答案的置信度得分，我们的置信度度量在预测由 LLM 生成的答案的正确性方面在十个数据集中的七个上达到了 0.8 或更高的 AUC。

Mar, 2024

LLMs 的不确定性估计与量化：一种简单的监督方法

通过使用标记的数据集，本文研究了针对大型语言模型（LLMs）的不确定性估计和校准问题，提出了一个监督学习方法来估计 LLMs 响应的不确定性，并展示了利用隐藏激活对不同任务进行增强不确定性估计的好处和在超出分布范围的情况下的鲁棒性，同时区分了不确定性估计任务和不确定性校准任务，并表明更好的不确定性估计模式会导致更好的校准性能。

Apr, 2024

通过不确定性量化对 LLMs 进行基准测试

通过整合不确定性量化的新型基准评估方法，本研究发现：准确性较高的大型语言模型可能显示出较低的确定性，较大规模的语言模型可能与较小规模的模型相比具有更大的不确定性，指令微调倾向于增加语言模型的不确定性。这些结果强调了在语言模型评估中整合不确定性的重要性。

Jan, 2024

审慎行事：大型语言模型下的不确定性测量的探索性研究

从不确定性的角度进行的风险评估研究表明不确定性估计方法可用于揭示大型语言模型的预测风险，并可能发现由该模型生成的有错误的程序。

Jul, 2023