黑盒大型语言模型和决策规划的高效非参数不确定性量化
该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量,提出几个置信度 / 不确定度统计度量标准,并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。
May, 2023
我们在大型语言模型中探索不确定性量化,旨在确定查询结果的不确定性何时较大。我们同时考虑认识论不确定性和偶然性不确定性,从中推论出一种信息论度量,可可靠地检测只有认识论不确定性较大的情况,从模型的输出中可以仅通过一些特殊的迭代提示来计算。这种量化可以检测出幻觉,在单答案和多答案响应中均适用。与许多标准的不确定性量化策略(例如,将响应的对数似然度阈值化)不同,无法检测到多答案情况下的幻觉。我们进行了一系列实验证明了我们的公式的优势。此外,我们的研究还揭示了大型语言模型给定输出的概率如何通过迭代提示来放大,这可能具有独立的研究价值。
Jun, 2024
大语言模型 (LLMs) 缺乏可靠性是其实际部署的一个主要障碍。本研究探讨了在问答领域中,通过不确定性度量的不确定度来弃权的可行性和有效性,并使用具有和不具有人类反馈的强化学习(RLHF)的模型和这些不确定度度量,证明通过适当的不确定度度量进行弃权可以提高 LLMs 的可靠性。
Apr, 2024
通过使用标记的数据集,本文研究了针对大型语言模型(LLMs)的不确定性估计和校准问题,提出了一个监督学习方法来估计 LLMs 响应的不确定性,并展示了利用隐藏激活对不同任务进行增强不确定性估计的好处和在超出分布范围的情况下的鲁棒性,同时区分了不确定性估计任务和不确定性校准任务,并表明更好的不确定性估计模式会导致更好的校准性能。
Apr, 2024
我们提出了一种自动化的大语言模型(LLM)转换方法,可以产生能够在每个预测中估计不确定性的具有不确定性感知能力的 LLM。我们的方法与模型和数据无关,计算效率高,不依赖外部模型或系统。我们在选择性问答环境下评估了转换模型,即尽可能回答问题同时保持给定的准确性,在必要时放弃提供预测。作为我们结果的一部分,我们在 SQuAD 抽取式问答任务和 TruthfulQA 生成式问答任务上测试了 BERT 和 Llama 2 模型变体。我们表明,使用我们方法提供的不确定性估计有选择性地回答问题,可以显著提高准确性,相比直接使用模型概率。
Nov, 2023
该论文提出了一种评估大型语言模型不确定性的新方法,通过构建由蕴含概率组成的方向图,并创新地进行随机行走拉普拉斯过程以捕捉方向不稳定性,然后通过拉普拉斯过程得到的特征值来聚合不确定性。此外,该论文识别了原始回应集中的模糊问题,并提出了一种补充方法以缓解此问题,我们进行了大量实证实验并证明了我们提出的解决方案的优越性。
Jul, 2024
通过引入内省计划的概念,该论文探讨了使用无需微调的系统化方法来引导大型语言模型进行感知不确定性的规划,以此改进机器人任务执行的成功率和安全性。并且研究了结合符合预测方法的内省计划的有效性,结果显示此组合可以提供更紧密的置信区间,在减少用户澄清查询的同时保持统计成功保证。
Feb, 2024
基于模型输出的不确定性量化的事实检查和幻觉检测方法在语言模型的传记生成任务中取得了强大的改进,与基于外部知识的事实检查工具具有竞争力。
Mar, 2024