思考的不确定性：不确定性感知规划增强大型语言模型中的信息搜索

Feb, 2024

思考的不确定性：不确定性感知规划增强大型语言模型中的信息搜索

Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models

Zhiyuan Hu, Chumin Liu, Xidong Feng, Yilun Zhao, See-Kiong Ng...

TL;DR通过模拟、激励和奖励机制，引入了一种名为不确定性思考（UoT）的算法来提高大型语言模型在主动寻求信息方面的能力。在医学诊断、故障排除和 '20 个问题 ' 游戏的实验中，UoT 相较于直接提示的方式，在成功完成任务的速度上平均提高了 57.8%，同时也提高了任务完成所需的效率（即问题数量的减少）。

Abstract

In the face of uncertainty, the ability to seek information is of fundamental importance. In many practical applications, such as medical diagnosis and troubleshooting, the information needed to solve the task is not initially given, and has to be actively sought by asking follow-up

uncertainty information seeking questions simulation rewards

发现论文，激发创造

大型语言模型的不确定思考推理树

我们引入了一种针对大型语言模型的推理框架 —— 不确定性思维树（TouT），通过有效利用蒙特卡洛丢弃法来量化这些中间步骤的多样化本地响应的不确定性评分，并将其与全局搜索算法结合起来，提高模型在响应生成方面的精确性。通过在两个具有挑战性的规划任务上进行严格实验，我们的实证证据突显了 TouT 在 ToT 和思维链提示方法上的优势。

Sep, 2023

基于不确定性的选择性问题回答语言建模

我们提出了一种自动化的大语言模型（LLM）转换方法，可以产生能够在每个预测中估计不确定性的具有不确定性感知能力的 LLM。我们的方法与模型和数据无关，计算效率高，不依赖外部模型或系统。我们在选择性问答环境下评估了转换模型，即尽可能回答问题同时保持给定的准确性，在必要时放弃提供预测。作为我们结果的一部分，我们在 SQuAD 抽取式问答任务和 TruthfulQA 生成式问答任务上测试了 BERT 和 Llama 2 模型变体。我们表明，使用我们方法提供的不确定性估计有选择性地回答问题，可以显著提高准确性，相比直接使用模型概率。

Nov, 2023

黑盒大型语言模型和决策规划的高效非参数不确定性量化

该论文关注使用大型语言模型进行决策规划，并通过不确定性估计来解决语言模型中的幻觉问题，提出了非参数化的不确定性量化方法和决策代理设计的系统化方法，为人工智能代理的开发提供了一种高效的成本有效途径。

Feb, 2024

思维之树：利用大型语言模型进行有意识的问题解决

通过 Tree of Thoughts (ToT) 框架，可以弥补语言模型在考虑多种不同推理路径时的局限性，进而提高语言模型在需要问题解决的任务中的表现。实验表明，使用 ToT 的方法大大提高了语言模型在三个需要非平凡计划或搜索的任务的解决能力：24 点游戏、创意写作和小型填字游戏。

May, 2023

走向具有不确定性认知的语言代理

这篇研究论文介绍了一种名为 “不确定性感知的语言代理（UALA）” 的框架，它通过不确定性量化来协调代理与外界的交互，并通过对比实验证明了其在性能上的显著改进，同时对外部世界的依赖较低，也强调了语言模型的口头置信对不确定性的代理不可靠性。

Jan, 2024

大型语言模型指导下的思维树

本文提出了 Tree-of-Thought (ToT) 框架，它通过试错的思路来改进自回归大语言模型的问题解决能力。通过增加提示、检查、记忆和控制等模块来实现 ToT 系统。为了验证该技术的有效性，我们基于 ToT 设计了解决数独难题的求解器，实验结果表明，ToT 框架能够显著提高数独难题的成功率。

May, 2023

基于不确定性的 LLMs 弃权改善安全性并减少幻觉

大语言模型 (LLMs) 缺乏可靠性是其实际部署的一个主要障碍。本研究探讨了在问答领域中，通过不确定性度量的不确定度来弃权的可行性和有效性，并使用具有和不具有人类反馈的强化学习（RLHF）的模型和这些不确定度度量，证明通过适当的不确定度度量进行弃权可以提高 LLMs 的可靠性。

Apr, 2024

使用大型语言模型预测对话中的不确定性：成交与否（或谁知道）？

有效的对话者必须考虑他人的不确定目标、信念和情绪，但是即使是最好的人类对话者也无法完美地预测对话的轨迹。我们提出了 FortUne Dial，对长期存在的 “对话预测” 任务进行了扩展：不仅评估准确性，还使用了具有不确定性意识的度量标准，有效地使个别实例中可以放弃预测。我们研究了语言模型在代表对话结果不确定性方面的两种方式（内部使用分数，直接使用标记），并提出了改进这两种表示的校准的微调策略。在八个困难的谈判语料库上的实验证明，我们提出的微调策略（传统的监督策略和离线策略增强学习策略）能够使规模较小的开源模型与其体积为 10 倍的预训练模型竞争。

Feb, 2024

在适当时候提出正确问题：人类和模型不确定性对于提问澄清问题的指导

通过团队对话任务为实验平台，研究模型不确定性与人类不确定性之间的关系，提出了一种基于模型不确定性估计的生成澄清问题的方法，并与其他几种方法进行对比，显示出在任务成功方面有显著的改进。

Feb, 2024

如何提问？以不确定性为指导的目标导向问题

本篇论文提出了基于贝叶斯模型和不确定性感知的信息寻求模型，以解决视觉对话问题中 agent 提出问题的困难。实验结果表明，在两种挑战性的问题中，我们的方法都优于其它相应的方法。

Dec, 2018