SPUQ：面向大型语言模型的扰动式不确定性量化

ACLMar, 2024

SPUQ：面向大型语言模型的扰动式不确定性量化

SPUQ: Perturbation-Based Uncertainty Quantification for Large Language Models

Xiang Gao, Jiaxin Zhang, Lalla Mouatadid, Kamalika Das

TL;DR最近几年，大型语言模型（LLMs）已经变得越来越普遍，提供了卓越的文本生成能力。然而，一个迫切的挑战是它们倾向于做出自信的错误预测，突显出在 LLMs 中的不确定性量化（UQ）的重要性。尽管以往的研究主要集中在解决 aleatoric 不确定性，但是包括 epistemic 不确定性在内的整个不确定性范围仍然不够被探索。通过采样与扰动相结合的 UQ 方法（SPUQ），我们提出了一个新颖的 UQ 方法，旨在解决 aleatoric 和 epistemic 不确定性。该方法包括为 LLM 输入生成一组扰动，对于每个扰动进行输出采样，并结合一个聚合模块来推广文本生成任务的采样不确定性方法。通过对各种数据集进行广泛的实验，我们调查了不同的扰动和聚合技术。我们的研究结果显示模型不确定性校准得到了显著改进，平均预期校准误差（ECE）减少了 50％。我们的研究结果表明，我们提出的 UQ 方法为增强 LLMs 的可靠性和可信度迈出了有希望的一步。

Abstract

In recent years, large language models (LLMs) have become increasingly prevalent, offering remarkable text generation capabilities. However, a pressing challenge is their tendency to make confidently wrong predictions, highlighting the critical need for →

large language models uncertainty quantification aleatoric uncertainty epistemic uncertainty expected calibration error

发现论文，激发创造

LUQ：基于 LLMs 的长文本不确定性量化

大语言模型（LLMs）在各种 NLP 任务中展示了非凡的能力。我们的研究首先强调了目前 UQ 方法在处理长文本生成时的局限性，然后介绍了 Luq，一种专门设计用于长文本的基于采样的 UQ 方法。我们的发现表明，Luq 在与模型的准确性分数相关性方面优于现有的基准方法。通过 Luq 作为 UQ 工具，我们调查了几个流行 LLMs 的响应信心谱行为模式及其与事实性响应的相互作用。我们发现 LLMs 在生成罕见事实的长文本上缺乏信心，而事实准确的模型（如 GPT-4）倾向于拒绝其不确定的问题。为了进一步提高 LLM 响应的事实准确性，我们提出了一种称为 Luq-Ensemble 的方法，该方法对来自多个模型的响应进行集成并选择不确定性最小的响应。这种集成方法极大地提高了响应的事实性，超越了最佳独立 LLM 的表现。

Mar, 2024

用 LM-Polygraph 为大型语言模型基准化不确定性量化方法

使用新的基准测试实现了对大规模语言模型在不确定性量化和归一化技术方面的评估，旨在解决其在文本生成任务中的不安全性和低质量输出等挑战。

Jun, 2024

科学领域中基于检索增强语言模型的不确定性量化的实证评估

通过在科学任务中综合评估检索增强的语言模型中的不确定性量化，本研究旨在填补检索增强语言模型不确定性量化方面的研究空白，发现检索语料库中包含的科学知识无法解决模型对预测结果过度自信的问题。

Nov, 2023

生成有信心：针对黑盒大型语言模型的不确定性量化

该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量，提出几个置信度 / 不确定度统计度量标准，并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。

May, 2023

大型语言模型的自然语言解释的不确定性量化

在这项研究中，我们尝试量化大型语言模型（LLM）解释的不确定性。为此，我们提出了两个新的度量标准 ——“口头化不确定性” 和 “探测不确定性”，用于量化生成解释的不确定性。我们的实证分析揭示了口头化不确定性不是可靠的解释置信度的估计，而探测不确定性的估计与解释的忠实度相关，较低的不确定性对应于较高的忠实度。这项研究为量化 LLM 解释的不确定性带来了洞察，有助于更广泛地探讨基础模型的可靠性。

Nov, 2023

ConU: 具有正确性覆盖保证的大型语言模型中的符合不确定性

通过从预测集构建的置信度条件中整合正确性对齐的不确定性准则，本研究在自然语言生成任务中，将确定性预测转化为严格的理论保证，从而解决了最近大型语言模型中的异构不确定性问题，并利用抽样不确定性测量方法提高了先前最先进的方法。通过在模型的非固定答案分布中校准预测集，实现对 6 个大型语言模型在 4 个自由格式的自然语言生成数据集上的正确覆盖率的严格控制，证明了我们的方法在实际开放式自然语言生成应用中提供可靠保证的高效性。

Jun, 2024

对复杂动态系统中认识不确定性和随机不确定性量化的机器学习架构评估

本研究比较了多种机器学习技术的 UQ 准确性，并对两个模型（船只在波浪中的运动和 Majda-McLaughlin-Tabak 模型）进行了应用。

Jun, 2023

基于图像的城市交通预测的不确定性量化

深度学习模型对交通预测的强大预测性能使其得到广泛应用，但缺乏可解释性限制了其在实际智能交通系统中的部署。通过使用不确定性量化方法，我们调查了这些方法在跨多个城市和时间段的大规模基于图像的交通数据集上的应用，以获得对现有不确定性方法在交通预测中的实用性以及不确定性与城市交通动态之间的关系的全面认识。在在时间和时空转移任务上比较了两种认知不确定性方法和两种他稳不确定性方法后，我们发现可以恢复有意义的不确定性估计。此外，我们进一步演示了如何利用不确定性估计来检测城市交通动态变化中的无监督异常点。通过对莫斯科市的代表性案例研究，我们发现我们的方法能够捕捉到交通行为的时间和空间效应。我们的工作是在交通预测任务中推动不确定性意识的进一步发展，并旨在突出不确定性量化方法对于更好理解城市交通动态的价值贡献。

Aug, 2023

预训练神经网络的认知不确定性量化

我们的研究旨在为任何预训练模型量化认识上的不确定性，不需要原始训练数据或模型修改，可以确保广泛适用于任何网络架构或训练技术；我们提出了一种基于梯度的方法来评估认识上的不确定性，通过分析输出相对于模型参数的梯度，从而指示必要的模型调整以准确地表示输入。

Apr, 2024

机器学习中的不确定性量化 - 工程设计与健康预测教程

本篇研究论文重点介绍了机器学习模型中的不确定性量化方法，特别关注神经网络以及在工程设计和医疗领域的应用。通过介绍多种不确定性量化方法和计量标准，本篇论文旨在帮助提高机器学习模型的安全性和可靠性，同时提供两个具体案例：锂离子电池寿命预测和涡轮发动机剩余使用寿命预测。

May, 2023