搜索思维的自动化：迈向健全性和完整性的旅程

Aug, 2024

搜索思维的自动化：迈向健全性和完整性的旅程

Automating Thought of Search: A Journey Towards Soundness and Completeness

Daniel Cao, Michael Katz, Harsha Kokel, Kavitha Srinivas, Shirin Sohrabi

TL;DR本研究解决了大型语言模型在规划任务中的局限性，通过自动化搜索思维（AutoToS）来消除人类参与，从而提高搜索过程的健全性和完整性。该方法通过通用和特定领域的单元测试反馈，引导模型逐步生成有效的搜索组件，实现了所有评估领域100%的准确率，具有重要的实际应用潜力。

Abstract

Planning remains one of the last standing bastions for Large Language Models (LLMs), which now turn their attention to search. Most of the literature uses the language models as world models to define the search space, forgoing →

发现论文，激发创造

大型语言模型的规划能力 - 一项关键调查

本文旨在研究LLLms在常识规划任务中的规划能力，通过在国际计划竞赛中生成一系列实例，并评估LLMs在自主规划和启发式两种不同模式下的表现，发现LLMs在自主规划方面的表现非常有限，但在启发式模式下，LLMs生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。

May, 2023

思维算法：增强大型语言模型中的想法探索

我们提出了《Algorithm of Thoughts》，这是一种新的通过算法推动大型语言模型的算法推理路径的策略，以在上下文学习中扩展其思路探索，并超越了早期单查询方法和最近的多查询策略。

Aug, 2023

大型语言模型的自主树搜索能力

大型语言模型在高级提示技术方面具有出色的推理能力，但在需要探索、战略前瞻和序贯决策的任务上存在不足。最近的研究通过利用外部程序定义搜索逻辑，使LLMs能够执行被动树搜索以解决更具挑战性的推理任务。我们提出了一种名为LLM的自主树搜索能力的新概念，它可以自动生成包含正确答案的搜索轨迹的响应。在4个益智游戏上的实验表明，我们的方法可以取得巨大的改进。与先前的方法相比，ATS-BFS方法在准确性上提高了33％，而GPT API 成本降低了65.6%或47.7%。此外，我们使用ATS提示方法收集数据并对LLaMA进行微调，在LLaMA2-7B和LLaMA2-13B上相对于CoT-tuned LLaMAs提高了40.6%和38.5%。

Oct, 2023

大型语言模型中的逻辑谜题解决评估：基于扫雷案例研究的洞察

我们的研究引入了一种新的任务--扫雷，旨在测试LLMs在陌生格式的任务中的推理和规划能力；我们的实验证明，尽管LLMs具备完成该任务所需的基本能力，但它们在将这些能力整合成解决扫雷问题所需的连贯的多步骤逻辑推理过程方面存在困难。这些发现强调了进一步研究LLMs推理能力及探索更复杂的AI推理和规划模型的必要性。

Nov, 2023

朝着更合理的 AI 规划模型

这是第一项研究应用大语言模型（LLMs）进行自动规划任务模型空间编辑的工作。我们探索了AI规划文献中研究的两种不同类型的模型空间问题，以及LLM对这些任务的影响。我们通过实验证明了LLM的性能与组合搜索（CS）的对比情况，以及LLM作为独立模型空间推理器以及作为与CS方法结合的统计信号的双阶段过程的一部分时的性能。我们的实验结果表明，LLM在未来进一步探索规划任务中的模型空间推理的前景很有希望。

Nov, 2023

搜索流（SoS）：在语言中学习搜索

该论文提出了一种通过使用一种表示搜索过程的扁平字符串（搜索流）来教授语言模型进行搜索的方法，并通过使用启发式求解器生成的搜索流数据集从头开始预训练一个基于Transformer的语言模型来展示该方法的有效性。论文进一步使用Advantage-Induced Policy Alignment（APA）和Self-Taught Reasoner（STaR）两种策略改进方法对其进行微调，结果表明将SoS模型应用于Countdown游戏可以提升搜索准确性25％，而微调后的SoS模型能够解决36％的以前无法解决的问题，并能够灵活地使用不同的搜索策略甚至发现新的搜索策略。

Apr, 2024

LLM推理器：大型语言模型逐步推理的新评估、库和分析

该论文介绍了 AutoRace 和 LLM Reasoners，分别用于评估和实现不同的推理方法，以解决大型语言模型在生成推理链时所面临的挑战。

Apr, 2024

导航迷宫：评估和提高LLMs处理搜索问题的能力

最近，大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是，它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题，我们引入了一个名为SearchBench的新基准测试，其中包含11种独特的搜索问题类型，每种问题类型都配备了自动化流程来生成任意数量的实例，并分析LLM生成解决方案的可行性、正确性和最优性。我们发现，即使是最先进的LLM也无法完全以文本方式解决这些问题，例如GPT4只解决了1.4%的问题。SearchBench的问题要求考虑到多个解决路径以及回溯，这对自回归模型构成了重大挑战。指导LLM生成解决问题的代码会有所帮助，但是仅有轻微的改进，例如GPT4的表现提升到了11.7%。在这项工作中，我们展示了利用A*算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时，它的潜力得到了充分展现，将GPT-4的表现提升到了57%以上。

Jun, 2024

深入理解大型语言模型在自动启发式设计中的进化搜索重要性

自动启发式设计是近期引起广泛关注的一个研究领域，本研究通过大规模基准测试，探究了基于大语言模型的进化程序搜索方法在自动启发式设计中的重要性及进展，为未来进化程序搜索算法的发展做出了实证贡献。

Jul, 2024

自然语言规划改善大语言模型代码生成的搜索能力

本研究针对大语言模型（LLMs）在推理计算中缺乏多样性所导致的低效搜索问题进行了探讨。通过提出PLANSEARCH这一新颖的搜索算法，研究表明基于自然语言的计划搜索能产生更为多样化的解决方案，从而显著提升了代码生成的效果，特别是在LiveCodeBench上达到了77.0%的最佳通过率。

Sep, 2024