通过增强的符合预测方法验证大型语言模型的有效性

Jun, 2024

通过增强的符合预测方法验证大型语言模型的有效性

Large language model validity via enhanced conformal prediction methods

John J. Cherian, Isaac Gibbs, Emmanuel J. Candès

TL;DR我们开发了新的一致推断方法，用于获取大型语言模型 (LLMs) 输出的有效性保证。我们通过过滤控制函数的评估结果来确定出LLM响应中满足高概率正确性保证的文本子集。我们的方法解决了现有方法存在的两个问题，首先，所述保证并非条件有效；其次，因为评分函数不完善，过滤步骤可能会删除许多有价值和准确的声明，我们通过两种新的一致方法解决了这两个挑战。

Abstract

We develop new conformal inference methods for obtaining validity guarantees on the output of large language models (LLMs). Prior work in

发现论文，激发创造

使用ReLM验证大型语言模型

本文介绍了用标准正则表达式验证和查询LLMs的ReLM系统，其结果表明ReLM的最高系统效率是现有方法的15倍，数据效率是现有方法的2.5倍，并且具有竞争力和较高的统计学和提示调整覆盖率。

Nov, 2022

使用大型语言模型的共形预测在多项选择题回答中的应用

探讨如何利用符合性预测方法对大型语言模型进行不确定性量化，以提高其在多选题答题等任务中的可靠性及稳定性。研究发现，符合性预测所估计的不确定性与模型的预测准确性存在密切关联，这一发现可以用于选择性分类及过滤低质量预测结果等下游应用。研究还探讨了符合性预测对于超出问题领域的问题的处理方法。本工作旨在为大型语言模型在安全关键性场景中提供更加可信和可靠的使用保障。

May, 2023

机器翻译评估的共形化

本文研究机器翻译的不确定性评估方法，发现目前大多数方法对模型不确定性的估计较低，建议采用分布自由的合规预测法来保证覆盖度，并提出条件合规预测技术来获得每个数据子组的校准子集，从而实现覆盖率均衡。

Jun, 2023

共形语言建模

该研究介绍了一种新的适用于生成式语言模型的公差预测方法，它不仅能够精确地预测结果，还具有统计学的可靠性。研究者们通过校准样本输出和严格限制机制来实现这种方法。

Jun, 2023

具备符合式真实性保证的语言模型

通过连接语言建模和符合预测，我们提出了一种名为符合真实性的框架，可以确保语言模型输出的高概率正确性保证。我们观察到语言模型输出的正确性等同于一个不确定性量化问题，其中不确定性集合被定义为语言模型输出的蕴含集合。利用这种连接，我们展示了在语言模型中的符合预测对应于一种回退算法，通过逐步使语言模型输出不太具体（并扩大相关的不确定性集合）以提供高概率的正确性保证。这种方法适用于任何黑盒语言模型，并且只需要很少的人工标注样本。我们对我们的方法在闭卷问答（FActScore，NaturalQuestions）和推理任务（MATH）上进行评估，结果表明我们的方法可以在保留大部分语言模型原始输出的同时提供80-90%的正确性保证。

Feb, 2024

用样本一致性校准大型语言模型

通过从多个随机抽样的模型生成的分布中导出确定度來提高大型语言模型(LLM)预测的准确度。在多个开放和闭源模型上进行广泛评估，结果表明基于一致性的校准方法优于现有的事后方法，并提供了选择适用于不同LLMs特性的合适一致性度量标准的实用指南。

Feb, 2024

API已足够：大型语言模型的无需访问逻辑函数的符合预测

本研究旨在解决大型语言模型中无法访问 logits 的不确定性量化的普遍挑战。我们提出了一种面向 API-only 语言模型的新型 CP 方法，通过同时利用粗粒度（如样本频率）和细粒度（如语义相似性）的不确定性概念来构建不确定度量，实现了更好的预测性能。实验证明，我们的方法在封闭式和开放式问答任务中大多能够胜过基于 logits 的 CP 对照组。

Mar, 2024

CONFLARE: 形式化大型语言模型检索

引入了一个四步框架，将符合性预测应用于量化检索不确定性，从而确保检索增强生成(RAG)的可信度。

Apr, 2024

自然语言处理的保形预测：一项概述调查

快速增长的大型语言模型和自然语言处理（NLP）应用对不确定性量化提出了关键需求，以减轻幻象等风险并提高关键应用中的决策可靠性。条件预测正在成为一个理论上健全且实用的框架，结合了灵活性和强有力的统计保证。它的模型无关性和无分布性质使其特别有希望解决源于NLP系统缺乏不确定性量化的现有缺点。本文对条件预测技术、其保证以及NLP中的现有应用进行了全面调研，指出了未来研究的方向和面临的挑战。

May, 2024

ConU: 具有正确性覆盖保证的大型语言模型中的符合不确定性

通过从预测集构建的置信度条件中整合正确性对齐的不确定性准则，本研究在自然语言生成任务中，将确定性预测转化为严格的理论保证，从而解决了最近大型语言模型中的异构不确定性问题，并利用抽样不确定性测量方法提高了先前最先进的方法。通过在模型的非固定答案分布中校准预测集，实现对6个大型语言模型在4个自由格式的自然语言生成数据集上的正确覆盖率的严格控制，证明了我们的方法在实际开放式自然语言生成应用中提供可靠保证的高效性。

Jun, 2024