核心语言熵：基于语义相似性的 LLMs 细粒度不确定性量化

May, 2024

核心语言熵：基于语义相似性的 LLMs 细粒度不确定性量化

Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities

Alexander Nikitin, Jannik Kossen, Yarin Gal, Pekka Marttinen

TL;DR在大型语言模型中，不确定性量化对于关系到安全性和可靠性的应用至关重要。我们提出了 Kernel Language Entropy（KLE），这是一种用于估计白盒和黑盒语言模型中不确定性的新方法，它能够捕捉到模型输出的语义不确定性，并通过 von Neumann 熵来量化不确定性。实验证明，KLE 在多个自然语言生成数据集和语言模型架构上提供了更好的不确定性量化性能。

Abstract

uncertainty quantification in large language models (LLMs) is crucial for applications where safety and reliability are important. In particular, uncertainty can be used to improve the trustworthiness of LLMs by

uncertainty quantification large language models semantic uncertainty kernel language entropy uncertainty estimation

发现论文，激发创造

语义密度：大型语言模型中语义空间的不确定性量化

通过语义密度方法，解决大型语言模型在安全关键场景中的不确定性问题，提高可信度和性能表现。

May, 2024

语义不确定性：自然语言生成中不确定性估计的语言不变性

本文提出了一种测量大型语言模型中不确定性的方法，介绍了语义熵的概念，并且证明该方法在问答任务上的准确性优于基线模型。

Feb, 2023

生成有信心：针对黑盒大型语言模型的不确定性量化

该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量，提出几个置信度 / 不确定度统计度量标准，并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。

May, 2023

用语言模型区分可知与不可知

通过大型语言模型中的线性探针和无监督方法，研究确定性认知不确定性与随机认知不确定性的可行性，为多样化实际场景中模型置信度提供更详细的指标。

Feb, 2024

相信还是不相信你的 LLM

我们在大型语言模型中探索不确定性量化，旨在确定查询结果的不确定性何时较大。我们同时考虑认识论不确定性和偶然性不确定性，从中推论出一种信息论度量，可可靠地检测只有认识论不确定性较大的情况，从模型的输出中可以仅通过一些特殊的迭代提示来计算。这种量化可以检测出幻觉，在单答案和多答案响应中均适用。与许多标准的不确定性量化策略（例如，将响应的对数似然度阈值化）不同，无法检测到多答案情况下的幻觉。我们进行了一系列实验证明了我们的公式的优势。此外，我们的研究还揭示了大型语言模型给定输出的概率如何通过迭代提示来放大，这可能具有独立的研究价值。

Jun, 2024

知识的知识：使用大型语言模型探索已知 - 未知的不确定性

本论文探讨了大型语言模型在理解自己的知识和衡量自身不确定性方面的能力，并提供了一个新的已知 - 未知问题数据集以及一个分类方法来解释不确定性的来源。通过评估 LM 在分类已知和未知问题以及在开放式问题回答中的质量方面，量化了 LM 表达答案中的不确定性的方法。

May, 2023

利用 LoRA 整体进行 LLMs 的微调的不确定性量化

利用计算效率高的低秩适应集合，推导了对细调 LLM 的基于后验估计的确定性量化方法，并通过分析三个常见的多选数据集，量化和定性地得出了他们在不同目标领域中的知觉复杂性和模型效能，并假设了一种对于给定体系结构难以学习的数据领域的熵不确定性度量的信号。

Feb, 2024

大型语言模型中的凸包分析不确定性量化

该研究提出了一种新颖的几何方法来评估大语言模型（LLM）的不确定性，利用凸包分析来度量模型输出的离散度和可变性，该方法通过将回答转化为高维嵌入，并使用主成分分析（PCA）将其投影到二维空间。实验结果表明，LLMs 模型的不确定性取决于提示的复杂性、模型和温度设置。

Jun, 2024

解缠的潜空间的语义不确定性区间

该论文提供了一种基于量化回归的方法来量化生成模型中语义信息潜空间在语义限制条件下的不确定性，从而为诸如图像超分辨率和图像完成等逆问题提供了可靠的，基于实例的，具有语义信息含义的不确定性可视化。

Jul, 2022

LLMs 的不确定性估计与量化：一种简单的监督方法

通过使用标记的数据集，本文研究了针对大型语言模型（LLMs）的不确定性估计和校准问题，提出了一个监督学习方法来估计 LLMs 响应的不确定性，并展示了利用隐藏激活对不同任务进行增强不确定性估计的好处和在超出分布范围的情况下的鲁棒性，同时区分了不确定性估计任务和不确定性校准任务，并表明更好的不确定性估计模式会导致更好的校准性能。

Apr, 2024