关于大型语言模型的决策重要性中的不确定性
通过引入一种不确定性感知的上下文学习框架,我们改进了大规模语言模型的响应质量,并过滤掉具有较高不确定性的答案,从而提高了模型的准确性。
Oct, 2023
该论文关注使用大型语言模型进行决策规划,并通过不确定性估计来解决语言模型中的幻觉问题,提出了非参数化的不确定性量化方法和决策代理设计的系统化方法,为人工智能代理的开发提供了一种高效的成本有效途径。
Feb, 2024
通过将大型语言模型与情境赌博算法框架相融合,加强了对于情境的表示,提供更密集且更丰富的视角,初步结果表明这种方法的潜力,与传统赌博算法相比,在累积奖励上有显著改善,且减少了后悔。这种整合不仅展示了大型语言模型在强化学习中的能力,还为全新的情境感知决策系统开启了新的篇章。
Nov, 2023
本研究通过研究生成不平等性如何影响不确定性估计,提出了将注意力转移到更相关的组件来处理生成不平等性的方法,通过在各种自由形式的问答任务中进行实验,证明了该方法的优越性。
Jul, 2023
在高风险应用中使用大型语言模型(LLMs)时,我们需要知道何时可以信赖它们的预测。本研究首先论证了仅仅使用提示是不足以实现良好校准的,然后展示了在一个小数据集上进行精调以创建具有良好概括性和小计算开销的不确定性估计的方法。我们还研究了可靠的 LLM 不确定性估计的机制,并通过用户研究展示了不确定性估计如何影响人与 AI 的协作环境中的人类使用 LLMs。
Jun, 2024
我们介绍了一种新颖方法,利用大型语言模型(LLM)结合不确定性感知模块,提供生成答案的置信度评分,从而在图处理中实现高准确性和解释性。我们在两个图处理任务上的实验证明,通过参数高效微调,LLM 在十个不同的基准数据集上胜过最先进的算法。此外,为了解决可解释性的挑战,我们提出了基于扰动的不确定性估计方法,并使用校准方案来量化生成答案的置信度得分,我们的置信度度量在预测由 LLM 生成的答案的正确性方面在十个数据集中的七个上达到了 0.8 或更高的 AUC。
Mar, 2024
我们在大型语言模型中探索不确定性量化,旨在确定查询结果的不确定性何时较大。我们同时考虑认识论不确定性和偶然性不确定性,从中推论出一种信息论度量,可可靠地检测只有认识论不确定性较大的情况,从模型的输出中可以仅通过一些特殊的迭代提示来计算。这种量化可以检测出幻觉,在单答案和多答案响应中均适用。与许多标准的不确定性量化策略(例如,将响应的对数似然度阈值化)不同,无法检测到多答案情况下的幻觉。我们进行了一系列实验证明了我们的公式的优势。此外,我们的研究还揭示了大型语言模型给定输出的概率如何通过迭代提示来放大,这可能具有独立的研究价值。
Jun, 2024