使用大型语言模型的共形预测在多项选择题回答中的应用
我们提出了一种自动化的大语言模型(LLM)转换方法,可以产生能够在每个预测中估计不确定性的具有不确定性感知能力的LLM。我们的方法与模型和数据无关,计算效率高,不依赖外部模型或系统。我们在选择性问答环境下评估了转换模型,即尽可能回答问题同时保持给定的准确性,在必要时放弃提供预测。作为我们结果的一部分,我们在SQuAD抽取式问答任务和TruthfulQA生成式问答任务上测试了BERT和Llama 2模型变体。我们表明,使用我们方法提供的不确定性估计有选择性地回答问题,可以显著提高准确性,相比直接使用模型概率。
Nov, 2023
通过连接语言建模和符合预测,我们提出了一种名为符合真实性的框架,可以确保语言模型输出的高概率正确性保证。我们观察到语言模型输出的正确性等同于一个不确定性量化问题,其中不确定性集合被定义为语言模型输出的蕴含集合。利用这种连接,我们展示了在语言模型中的符合预测对应于一种回退算法,通过逐步使语言模型输出不太具体(并扩大相关的不确定性集合)以提供高概率的正确性保证。这种方法适用于任何黑盒语言模型,并且只需要很少的人工标注样本。我们对我们的方法在闭卷问答(FActScore,NaturalQuestions)和推理任务(MATH)上进行评估,结果表明我们的方法可以在保留大部分语言模型原始输出的同时提供80-90%的正确性保证。
Feb, 2024
大型语言模型在多项选择问答任务中的最大 softmax 概率(MSP)与正确答案相比与错误答案相关性强,对问答任务表现优异的模型的 MSP 生成的 AUROC 在 59/60 情况中高于随机概率,并在最佳的六个模型中 AUROC 平均为 60% 到 69%。通过基于初始模型响应的 MSP 有选择地弃权,提出了一种能提高性能的多项选择问答任务。同样,我们使用预修正前 logit 进行了相同的实验,并获得了类似(但不完全相同)的结果。
Feb, 2024
本研究旨在解决大型语言模型中无法访问 logits 的不确定性量化的普遍挑战。我们提出了一种面向 API-only 语言模型的新型 CP 方法,通过同时利用粗粒度(如样本频率)和细粒度(如语义相似性)的不确定性概念来构建不确定度量,实现了更好的预测性能。实验证明,我们的方法在封闭式和开放式问答任务中大多能够胜过基于 logits 的 CP 对照组。
Mar, 2024
快速增长的大型语言模型和自然语言处理(NLP)应用对不确定性量化提出了关键需求,以减轻幻象等风险并提高关键应用中的决策可靠性。条件预测正在成为一个理论上健全且实用的框架,结合了灵活性和强有力的统计保证。它的模型无关性和无分布性质使其特别有希望解决源于NLP系统缺乏不确定性量化的现有缺点。本文对条件预测技术、其保证以及NLP中的现有应用进行了全面调研,指出了未来研究的方向和面临的挑战。
May, 2024
我们开发了新的一致推断方法,用于获取大型语言模型 (LLMs) 输出的有效性保证。我们通过过滤控制函数的评估结果来确定出LLM响应中满足高概率正确性保证的文本子集。我们的方法解决了现有方法存在的两个问题,首先,所述保证并非条件有效;其次,因为评分函数不完善,过滤步骤可能会删除许多有价值和准确的声明,我们通过两种新的一致方法解决了这两个挑战。
Jun, 2024
通过从预测集构建的置信度条件中整合正确性对齐的不确定性准则,本研究在自然语言生成任务中,将确定性预测转化为严格的理论保证,从而解决了最近大型语言模型中的异构不确定性问题,并利用抽样不确定性测量方法提高了先前最先进的方法。通过在模型的非固定答案分布中校准预测集,实现对6个大型语言模型在4个自由格式的自然语言生成数据集上的正确覆盖率的严格控制,证明了我们的方法在实际开放式自然语言生成应用中提供可靠保证的高效性。
Jun, 2024
本文解决了大型语言模型在信息生成中常常产生与现实冲突的信息的问题。通过监督微调不确定性增强的预测,研究提出了一种方法,使模型能够产生更为准确的不确定性语言表达,实验证明这一方法能够显著提升模型对自身预测的信心校准,从而提高用户对模型输出的信任度。
Sep, 2024
本文解决了大型语言模型(LLMs)中不确定性量化的准确性问题,提出了一种新的方法,利用语义嵌入进行更平滑、稳健的语义不确定性估计。研究表明,所提方法在准确性和细致度上优于传统方法,能够降低由于无关词引入的偏差,并通过单次前向传递显著降低计算开销。
Oct, 2024
本文提出了一种动态语义聚类方法,该方法受到中国餐厅过程的启发,旨在解决大语言模型(LLMs)推理中的不确定性问题。研究表明,该方法通过量化语义聚类的熵来评估不确定性,并在符合预测框架内利用聚类的负似然度作为不符合性评分,从而实现多个响应的预测,显著提升了生成响应的可靠性。
Nov, 2024