关于大型语言模型的决策重要性中的不确定性 | BriefGPT - AI 论文速递

Apr, 2024

关于大型语言模型的决策重要性中的不确定性

On the Importance of Uncertainty in Decision-Making with Large Language Models

Nicolò Felicioni, Lucas Maystre, Sina Ghiassian, Kamil Ciosek

TL;DR我们研究了在自然语言作为输入的决策问题中不确定性的作用，发现在大型语言模型中忽视了不确定性对于带有大型语言模型的赌博任务具有基础性的作用。

Abstract

We investigate the role of uncertainty in decision-making problems with natural language as input. For such tasks, using large language models

uncertainty decision-making problems large language models contextual bandits thompson sampling

发现论文，激发创造

审慎行事：大型语言模型下的不确定性测量的探索性研究

从不确定性的角度进行的风险评估研究表明不确定性估计方法可用于揭示大型语言模型的预测风险，并可能发现由该模型生成的有错误的程序。

Jul, 2023

通过利用不确定性感知型上下文学习提高大型语言模型的可靠性

通过引入一种不确定性感知的上下文学习框架，我们改进了大规模语言模型的响应质量，并过滤掉具有较高不确定性的答案，从而提高了模型的准确性。

Oct, 2023

黑盒大型语言模型和决策规划的高效非参数不确定性量化

该论文关注使用大型语言模型进行决策规划，并通过不确定性估计来解决语言模型中的幻觉问题，提出了非参数化的不确定性量化方法和决策代理设计的系统化方法，为人工智能代理的开发提供了一种高效的成本有效途径。

Feb, 2024

语言奖励模型的不确定性估计

该论文探讨了利用不确定性估计技术提高样本效率和鲁棒性的方法，其中提出了利用打包聚合技术训练奖励模型，但研究结果显示，集成主动学习并不比随机采样更有效。

Mar, 2022

基于 LLMs 增强的上下文强化学习

通过将大型语言模型与情境赌博算法框架相融合，加强了对于情境的表示，提供更密集且更丰富的视角，初步结果表明这种方法的潜力，与传统赌博算法相比，在累积奖励上有显著改善，且减少了后悔。这种整合不仅展示了大型语言模型在强化学习中的能力，还为全新的情境感知决策系统开启了新的篇章。

Nov, 2023

用语言模型区分可知与不可知

通过大型语言模型中的线性探针和无监督方法，研究确定性认知不确定性与随机认知不确定性的可行性，为多样化实际场景中模型置信度提供更详细的指标。

Feb, 2024

将注意力转向相关性：大型语言模型的不确定性估计

本研究通过研究生成不平等性如何影响不确定性估计，提出了将注意力转移到更相关的组件来处理生成不平等性的方法，通过在各种自由形式的问答任务中进行实验，证明了该方法的优越性。

Jul, 2023

大型语言模型必须学会自知之明

在高风险应用中使用大型语言模型（LLMs）时，我们需要知道何时可以信赖它们的预测。本研究首先论证了仅仅使用提示是不足以实现良好校准的，然后展示了在一个小数据集上进行精调以创建具有良好概括性和小计算开销的不确定性估计的方法。我们还研究了可靠的 LLM 不确定性估计的机制，并通过用户研究展示了不确定性估计如何影响人与 AI 的协作环境中的人类使用 LLMs。

Jun, 2024

利用大型语言模型驾驭不确定性感知的图处理

我们介绍了一种新颖方法，利用大型语言模型（LLM）结合不确定性感知模块，提供生成答案的置信度评分，从而在图处理中实现高准确性和解释性。我们在两个图处理任务上的实验证明，通过参数高效微调，LLM 在十个不同的基准数据集上胜过最先进的算法。此外，为了解决可解释性的挑战，我们提出了基于扰动的不确定性估计方法，并使用校准方案来量化生成答案的置信度得分，我们的置信度度量在预测由 LLM 生成的答案的正确性方面在十个数据集中的七个上达到了 0.8 或更高的 AUC。

Mar, 2024

相信还是不相信你的 LLM

我们在大型语言模型中探索不确定性量化，旨在确定查询结果的不确定性何时较大。我们同时考虑认识论不确定性和偶然性不确定性，从中推论出一种信息论度量，可可靠地检测只有认识论不确定性较大的情况，从模型的输出中可以仅通过一些特殊的迭代提示来计算。这种量化可以检测出幻觉，在单答案和多答案响应中均适用。与许多标准的不确定性量化策略（例如，将响应的对数似然度阈值化）不同，无法检测到多答案情况下的幻觉。我们进行了一系列实验证明了我们的公式的优势。此外，我们的研究还揭示了大型语言模型给定输出的概率如何通过迭代提示来放大，这可能具有独立的研究价值。

Jun, 2024