思维雕塑:通过中间修订和搜索进行推理
通过Tree of Thoughts (ToT)框架,可以弥补语言模型在考虑多种不同推理路径时的局限性,进而提高语言模型在需要问题解决的任务中的表现。实验表明,使用ToT的方法大大提高了语言模型在三个需要非平凡计划或搜索的任务的解决能力:24点游戏、创意写作和小型填字游戏。
May, 2023
利用Graph of Thoughts (GoT)和prompting engineering技术,我们的方法在解决多步骤逻辑推理问题方面超越了GPT-4,分别获得了89.7%、86%和56%的准确率提升,并且相较于最先进的Tree of Thought (ToT)方法,我们的方法在准确率上平均提升了23%、24%和15%。
Aug, 2023
我们提出了《Algorithm of Thoughts》,这是一种新的通过算法推动大型语言模型的算法推理路径的策略,以在上下文学习中扩展其思路探索,并超越了早期单查询方法和最近的多查询策略。
Aug, 2023
我们引入了一种针对大型语言模型的推理框架——不确定性思维树(TouT),通过有效利用蒙特卡洛丢弃法来量化这些中间步骤的多样化本地响应的不确定性评分,并将其与全局搜索算法结合起来,提高模型在响应生成方面的精确性。通过在两个具有挑战性的规划任务上进行严格实验,我们的实证证据突显了TouT在ToT和思维链提示方法上的优势。
Sep, 2023
Thought Propagation (TP) leverages insights from solving analogous problems to enhance the complex reasoning ability of Large Language Models (LLMs), achieving substantial improvements in finding optimal solutions, human preference in creative writing, and task completion rate of LLM-Agent Planning.
Oct, 2023
提出了一种基于比较的链式思考生成算法,通过直接利用语言模型的嘈杂反馈,识别最有前景的思考,从而提高大型语言模型在处理复杂推理问题时的能力。
Feb, 2024
通过迭代地探索和自我评估许多思维树以获得试错推理经验集,我们提出了一种用于LLMs问题解决的自动提示框架BoT,它将作为一种新形式的提示来解决复杂的问题。实验证明,BoT在解决复杂数学问题时,与其他先进的提示方法相比,可以达到更高或相当的问题解决率。
Feb, 2024
通过引入检索增强思维树(RATT),结合事实知识和策略可行性,以提高大型语言模型(LLMs)的逻辑推理和决策效率。经过各种任务的广泛实验验证,RATT在事实正确性和逻辑连贯性方面明显优于现有方法。
Jun, 2024
我们引入“思绪缓冲区”(Buffer of Thoughts,BoT),这是一种新颖而多用途的思绪增强推理方法,可提高大型语言模型(Large Language Models,LLMs)的准确性、效率和鲁棒性。通过引入元缓存器(meta-buffer)来存储一系列信息丰富的高级思维模板,我们能够从各种任务的问题解决过程中抽取思维模板。然后,对于每个问题,我们检索相关的思维模板,并灵活地用具体的推理结构来实例化它,以进行高效的推理。为了保证可扩展性和稳定性,我们进一步提出了缓冲器管理器(buffer-manager)来动态更新元缓存器,从而增强元缓存器的容量以适应更多的任务。我们对10个具有挑战性的推理密集型任务进行了大量实验,与之前的最先进方法相比,取得了显著的性能改进:24点游戏提升11%、几何形状提升20%、以及一步将军提升51%。进一步分析显示了我们的BoT具有优越的泛化能力和模型鲁棒性,而平均只需要多查询提示方法的12%成本(例如,思维树/图)。值得注意的是,我们发现我们的Llama3-8B+BoT具有超越Llama3-70B模型的潜力。我们的项目网址为:https://example.com
Jun, 2024
本研究解决了现有代码生成中蒙特卡罗树搜索算法低搜索质量的问题,主要由于搜索空间设计不当和反馈整合不足。我们提出了一种新方法RethinkMCTS,通过思维级搜索与代码执行反馈相结合,显著提升了搜索的效率和质量,实验证明算法在代码生成性能上优于以往基线,特别在HumanEval数据集上实现了更高的通过率。
Sep, 2024