自然语言生成中的主观不确定性量化和校准

Jun, 2024

自然语言生成中的主观不确定性量化和校准

On Subjective Uncertainty Quantification and Calibration in Natural Language Generation

Ziyu Wang, Chris Holmes

TL;DR利用贝叶斯决策理论的视角，本研究通过假设我们的效用是通过比较生成的回答和理论上的真实回答的相似度来衡量，从而解决了大语言模型生成自由形式回答时的不确定性量化问题。我们进一步从缺失数据的角度推导出一种表征为过量风险的认知不确定性衡量方法。所提出的方法可以应用于黑盒语言模型，并在问答与机器翻译任务上展示了如何从 GPT 和 Gemini 模型中提取具有广泛意义的不确定性估计并量化它们的校准度。

Abstract

Applications of large language models often involve the generation of free-form responses, in which case uncertainty quantification becomes challenging. This is due to the need to identify task-specific uncertain

large language models uncertainty quantification bayesian decision theory epistemic uncertainty calibration

发现论文，激发创造

生成有信心：针对黑盒大型语言模型的不确定性量化

该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量，提出几个置信度 / 不确定度统计度量标准，并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。

May, 2023

自然语言处理任务中的不确定性量化

本论文提出了新方法来研究自然语言处理（NLP）任务中表征模型和数据不确定性的好处，通过在卷积和循环神经网络模型上的实证实验，展示了明确建模不确定性不仅有利于测量输出置信水平，而且对于提升各种 NLP 任务中的模型表现也是有用的。

Nov, 2018

语言模型中的不确定性：通过排名校准进行评估

开发了一种名为 “Rank-Calibration” 的新颖实用框架，用于评估语言模型的不确定性和置信度，通过量化与生成质量的关系偏差的方式，消除了二进制阈值化的需求，并在实证验证中展示了方法的广泛适用性和细粒度可解释性。

Apr, 2024

语义不确定性：自然语言生成中不确定性估计的语言不变性

本文提出了一种测量大型语言模型中不确定性的方法，介绍了语义熵的概念，并且证明该方法在问答任务上的准确性优于基线模型。

Feb, 2023

教授模型用语言表达不确定性

本文证明了 GPT-3 模型可以学习在自然语言中表达关于自己答案的不确定性，并且能够在分布转移下保持中度校准，同时提供了证据表明 GPT-3 的校准能力依赖于与其答案的认识不确定性相关的预训练潜在表示。

May, 2022

语义密度：大型语言模型中语义空间的不确定性量化

通过语义密度方法，解决大型语言模型在安全关键场景中的不确定性问题，提高可信度和性能表现。

May, 2024

LLMs 的不确定性估计与量化：一种简单的监督方法

通过使用标记的数据集，本文研究了针对大型语言模型（LLMs）的不确定性估计和校准问题，提出了一个监督学习方法来估计 LLMs 响应的不确定性，并展示了利用隐藏激活对不同任务进行增强不确定性估计的好处和在超出分布范围的情况下的鲁棒性，同时区分了不确定性估计任务和不确定性校准任务，并表明更好的不确定性估计模式会导致更好的校准性能。

Apr, 2024

表征代理校准及消除标注员和数据偏差的不确定性来源

本文提出了一种简单的 Monte Carlo Dropout 算法，可以显式地量化神经网络输出的不确定性，利用此种不确定性可以解释模型复杂现象、如情感识别，此外也可以用于辨别主观标记样本和数据偏差的问题。

Sep, 2019

结合置信度引导和基于样本的方法进行虚假信息缓解中的不确定性量化

我们提出一种不确定性量化框架，利用直接置信度询问和基于样本的一致性方法，为 NLP 的假新闻抵制解决方案提供更好的校准，通过研究基于样本的一致性方法的校准，评估坚固的数值化提示的性能和分布偏移，结合基于样本的一致性和指示性方法提出一种混合框架，提高大型语言模型在假新闻抵制应用中的可靠性。

Jan, 2024

自然语言生成的不确定性：从理论到应用

最近强大的语言模型为自然语言生成（NLG）提供了进步，使其不仅可以执行传统任务如摘要或翻译，还可以作为各种应用的自然语言接口。本文首先提出了表示不确定性所需的基本理论、框架和词汇，并从语言学的角度确定了 NLG 中主要的不确定性来源，并提出了一个比流行的整体 / 种类二分法更具信息量和忠实度的二维分类系统。最后，我们从理论转向应用，强调利用不确定性进行解码、可控生成、自我评估、选择性回答、主动学习等的令人兴奋的研究方向。

Jul, 2023