思考的不确定性:不确定性感知规划增强大型语言模型中的信息搜索
我们引入了一种针对大型语言模型的推理框架 —— 不确定性思维树(TouT),通过有效利用蒙特卡洛丢弃法来量化这些中间步骤的多样化本地响应的不确定性评分,并将其与全局搜索算法结合起来,提高模型在响应生成方面的精确性。通过在两个具有挑战性的规划任务上进行严格实验,我们的实证证据突显了 TouT 在 ToT 和思维链提示方法上的优势。
Sep, 2023
我们提出了一种自动化的大语言模型(LLM)转换方法,可以产生能够在每个预测中估计不确定性的具有不确定性感知能力的 LLM。我们的方法与模型和数据无关,计算效率高,不依赖外部模型或系统。我们在选择性问答环境下评估了转换模型,即尽可能回答问题同时保持给定的准确性,在必要时放弃提供预测。作为我们结果的一部分,我们在 SQuAD 抽取式问答任务和 TruthfulQA 生成式问答任务上测试了 BERT 和 Llama 2 模型变体。我们表明,使用我们方法提供的不确定性估计有选择性地回答问题,可以显著提高准确性,相比直接使用模型概率。
Nov, 2023
该论文关注使用大型语言模型进行决策规划,并通过不确定性估计来解决语言模型中的幻觉问题,提出了非参数化的不确定性量化方法和决策代理设计的系统化方法,为人工智能代理的开发提供了一种高效的成本有效途径。
Feb, 2024
通过 Tree of Thoughts (ToT) 框架,可以弥补语言模型在考虑多种不同推理路径时的局限性,进而提高语言模型在需要问题解决的任务中的表现。实验表明,使用 ToT 的方法大大提高了语言模型在三个需要非平凡计划或搜索的任务的解决能力:24 点游戏、创意写作和小型填字游戏。
May, 2023
这篇研究论文介绍了一种名为 “不确定性感知的语言代理(UALA)” 的框架,它通过不确定性量化来协调代理与外界的交互,并通过对比实验证明了其在性能上的显著改进,同时对外部世界的依赖较低,也强调了语言模型的口头置信对不确定性的代理不可靠性。
Jan, 2024
本文提出了 Tree-of-Thought (ToT) 框架,它通过试错的思路来改进自回归大语言模型的问题解决能力。通过增加提示、检查、记忆和控制等模块来实现 ToT 系统。为了验证该技术的有效性,我们基于 ToT 设计了解决数独难题的求解器,实验结果表明,ToT 框架能够显著提高数独难题的成功率。
May, 2023
大语言模型 (LLMs) 缺乏可靠性是其实际部署的一个主要障碍。本研究探讨了在问答领域中,通过不确定性度量的不确定度来弃权的可行性和有效性,并使用具有和不具有人类反馈的强化学习(RLHF)的模型和这些不确定度度量,证明通过适当的不确定度度量进行弃权可以提高 LLMs 的可靠性。
Apr, 2024
有效的对话者必须考虑他人的不确定目标、信念和情绪,但是即使是最好的人类对话者也无法完美地预测对话的轨迹。我们提出了 FortUne Dial,对长期存在的 “对话预测” 任务进行了扩展:不仅评估准确性,还使用了具有不确定性意识的度量标准,有效地使个别实例中可以放弃预测。我们研究了语言模型在代表对话结果不确定性方面的两种方式(内部使用分数,直接使用标记),并提出了改进这两种表示的校准的微调策略。在八个困难的谈判语料库上的实验证明,我们提出的微调策略(传统的监督策略和离线策略增强学习策略)能够使规模较小的开源模型与其体积为 10 倍的预训练模型竞争。
Feb, 2024
通过团队对话任务为实验平台,研究模型不确定性与人类不确定性之间的关系,提出了一种基于模型不确定性估计的生成澄清问题的方法,并与其他几种方法进行对比,显示出在任务成功方面有显著的改进。
Feb, 2024
本篇论文提出了基于贝叶斯模型和不确定性感知的信息寻求模型,以解决视觉对话问题中 agent 提出问题的困难。实验结果表明,在两种挑战性的问题中,我们的方法都优于其它相应的方法。
Dec, 2018