不设计，学习：一种可训练的生成式 LLM 不确定性估计评分函数

Jun, 2024

不设计，学习：一种可训练的生成式 LLM 不确定性估计评分函数

Do Not Design, Learn: A Trainable Scoring Function for Uncertainty Estimation in Generative LLMs

Duygu Nur Yaldiz, Yavuz Faruk Bakman, Baturalp Buyukates, Chenyang Tao, Anil Ramakrishna...

TL;DR本研究引入了可学习的响应评分函数（LARS）用于生成式大型语言模型中的不确定性估计（UE）。我们提出了 LARS，它利用监督数据来捕捉令牌和概率之间的复杂依赖关系，从而在计算生成物的不确定性时产生更可靠和校准的响应评分。我们在多个数据集上进行了广泛的实验证明，LARS 在各种基于概率的 UE 方法中显著优于现有的评分函数。

Abstract

In this work, we introduce the learnable response scoring function (lars) for uncertainty estimation (UE) in →

learnable response scoring function uncertainty estimation generative large language models lars probability-based ue

发现论文，激发创造

MARS: 生成型 LLM 中对不确定性估计的意义感知响应评分

通过引入 “Meaning-Aware Response Scoring”（MARS）作为不确定性估计方法的替代方法，将 MARS 整合到不确定性估计方法中可普遍且显著提高不确定性估计性能。

Feb, 2024

将注意力转向相关性：大型语言模型的不确定性估计

本研究通过研究生成不平等性如何影响不确定性估计，提出了将注意力转移到更相关的组件来处理生成不平等性的方法，通过在各种自由形式的问答任务中进行实验，证明了该方法的优越性。

Jul, 2023

语言模型中的不确定性：通过排名校准进行评估

开发了一种名为 “Rank-Calibration” 的新颖实用框架，用于评估语言模型的不确定性和置信度，通过量化与生成质量的关系偏差的方式，消除了二进制阈值化的需求，并在实证验证中展示了方法的广泛适用性和细粒度可解释性。

Apr, 2024

使用增强类学习的广义无偏风险估计器

本文提出了一种通用的无偏风险估计器，可配备任意损失函数，同时保持理论保证，以解决采用增强类进行学习时常见的负样本问题。通过实验验证了该方法的有效性。

Jun, 2023

大型语言模型必须学会自知之明

在高风险应用中使用大型语言模型（LLMs）时，我们需要知道何时可以信赖它们的预测。本研究首先论证了仅仅使用提示是不足以实现良好校准的，然后展示了在一个小数据集上进行精调以创建具有良好概括性和小计算开销的不确定性估计的方法。我们还研究了可靠的 LLM 不确定性估计的机制，并通过用户研究展示了不确定性估计如何影响人与 AI 的协作环境中的人类使用 LLMs。

Jun, 2024

LLMs 的不确定性估计与量化：一种简单的监督方法

通过使用标记的数据集，本文研究了针对大型语言模型（LLMs）的不确定性估计和校准问题，提出了一个监督学习方法来估计 LLMs 响应的不确定性，并展示了利用隐藏激活对不同任务进行增强不确定性估计的好处和在超出分布范围的情况下的鲁棒性，同时区分了不确定性估计任务和不确定性校准任务，并表明更好的不确定性估计模式会导致更好的校准性能。

Apr, 2024

生成有信心：针对黑盒大型语言模型的不确定性量化

该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量，提出几个置信度 / 不确定度统计度量标准，并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。

May, 2023

基于不确定性的选择性问题回答语言建模

我们提出了一种自动化的大语言模型（LLM）转换方法，可以产生能够在每个预测中估计不确定性的具有不确定性感知能力的 LLM。我们的方法与模型和数据无关，计算效率高，不依赖外部模型或系统。我们在选择性问答环境下评估了转换模型，即尽可能回答问题同时保持给定的准确性，在必要时放弃提供预测。作为我们结果的一部分，我们在 SQuAD 抽取式问答任务和 TruthfulQA 生成式问答任务上测试了 BERT 和 Llama 2 模型变体。我们表明，使用我们方法提供的不确定性估计有选择性地回答问题，可以显著提高准确性，相比直接使用模型概率。

Nov, 2023

通过利用不确定性感知型上下文学习提高大型语言模型的可靠性

通过引入一种不确定性感知的上下文学习框架，我们改进了大规模语言模型的响应质量，并过滤掉具有较高不确定性的答案，从而提高了模型的准确性。

Oct, 2023

认识未知：一种敏感于不确定性的 LLM 指导调优方法

通过利用不确定性敏感调谐方法，我们成功提高了大型语言模型识别其知识边界的能力，改善了幻觉问题，并在性能方面获得了显著的提升。

Jun, 2024