语义不确定性：自然语言生成中不确定性估计的语言不变性

Feb, 2023

语义不确定性：自然语言生成中不确定性估计的语言不变性

Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation

Lorenz Kuhn, Yarin Gal, Sebastian Farquhar

TL;DR本文提出了一种测量大型语言模型中不确定性的方法，介绍了语义熵的概念，并且证明该方法在问答任务上的准确性优于基线模型。

Abstract

We introduce a method to measure uncertainty in large language models. For tasks like question answering, it is essential to know when we

uncertainty large language models semantic equivalence semantic entropy question answering

发现论文，激发创造

语义密度：大型语言模型中语义空间的不确定性量化

通过语义密度方法，解决大型语言模型在安全关键场景中的不确定性问题，提高可信度和性能表现。

May, 2024

自然语言处理任务中的不确定性量化

本论文提出了新方法来研究自然语言处理（NLP）任务中表征模型和数据不确定性的好处，通过在卷积和循环神经网络模型上的实证实验，展示了明确建模不确定性不仅有利于测量输出置信水平，而且对于提升各种 NLP 任务中的模型表现也是有用的。

Nov, 2018

自然语言生成中的主观不确定性量化和校准

利用贝叶斯决策理论的视角，本研究通过假设我们的效用是通过比较生成的回答和理论上的真实回答的相似度来衡量，从而解决了大语言模型生成自由形式回答时的不确定性量化问题。我们进一步从缺失数据的角度推导出一种表征为过量风险的认知不确定性衡量方法。所提出的方法可以应用于黑盒语言模型，并在问答与机器翻译任务上展示了如何从 GPT 和 Gemini 模型中提取具有广泛意义的不确定性估计并量化它们的校准度。

Jun, 2024

用语言模型区分可知与不可知

通过大型语言模型中的线性探针和无监督方法，研究确定性认知不确定性与随机认知不确定性的可行性，为多样化实际场景中模型置信度提供更详细的指标。

Feb, 2024

语言模型中的不确定性：通过排名校准进行评估

开发了一种名为 “Rank-Calibration” 的新颖实用框架，用于评估语言模型的不确定性和置信度，通过量化与生成质量的关系偏差的方式，消除了二进制阈值化的需求，并在实证验证中展示了方法的广泛适用性和细粒度可解释性。

Apr, 2024

神经机器翻译的不确定性感知语义增强

本文提出了一种新的方式用于神经机器翻译的模型训练，通过对多个具有相同语义的源语言句子进行明确抓取通用的语义信息以提高模型性能。在各类翻译任务的实验中，本方法表现显著优于现有方法。

Oct, 2020

生成有信心：针对黑盒大型语言模型的不确定性量化

该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量，提出几个置信度 / 不确定度统计度量标准，并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。

May, 2023

核心语言熵：基于语义相似性的 LLMs 细粒度不确定性量化

在大型语言模型中，不确定性量化对于关系到安全性和可靠性的应用至关重要。我们提出了 Kernel Language Entropy（KLE），这是一种用于估计白盒和黑盒语言模型中不确定性的新方法，它能够捕捉到模型输出的语义不确定性，并通过 von Neumann 熵来量化不确定性。实验证明，KLE 在多个自然语言生成数据集和语言模型架构上提供了更好的不确定性量化性能。

May, 2024

语义敏感度与不一致预测：衡量 NLI 模型的脆弱性

通过评估自然语言推理模型对含有微小语义保留表面形式噪声的对抗生成样本的效果，我们提供了证据表明，最新基于转换器的自然语言理解模型对于细微的语义保留有敏感性，这导致了推理过程中明显的不一致性。这种语义敏感性会导致在模型预测中的性能降低 12.92% 和 23.71%。

Jan, 2024

将注意力转向相关性：大型语言模型的不确定性估计

本研究通过研究生成不平等性如何影响不确定性估计，提出了将注意力转移到更相关的组件来处理生成不平等性的方法，通过在各种自由形式的问答任务中进行实验，证明了该方法的优越性。

Jul, 2023