自然语言规划改善大语言模型代码生成的搜索能力

Sep, 2024

自然语言规划改善大语言模型代码生成的搜索能力

Planning In Natural Language Improves LLM Search For Code Generation

Evan Wang, Federico Cassano, Catherine Wu, Yunfeng Bai, Will Song...

TL;DR本研究针对大语言模型（LLMs）在推理计算中缺乏多样性所导致的低效搜索问题进行了探讨。通过提出PLANSEARCH这一新颖的搜索算法，研究表明基于自然语言的计划搜索能产生更为多样化的解决方案，从而显著提升了代码生成的效果，特别是在LiveCodeBench上达到了77.0%的最佳通过率。

Abstract

While scaling training compute has led to remarkable improvements in Large Language Models (LLMs), scaling inference compute has not yet yielded analogous gains. We hypothesize that a core missing component is a lack of diverse LLM outputs, leading to inefficient search due to models r

发现论文，激发创造

使用大型语言模型进行代码生成的规划

本文提出了一种新的Transformer解码算法PG-TD，使用规划算法进行预见性搜索和引导Transformer生成更好的程序，可以生成具有更高性能的程序，提升了控制代码生成的能力，并设计了一种机制使算法具有计算效率。

Mar, 2023

LLM+P：利用最优规划提升大型语言模型的性能

本文介绍了LLM + P框架，将经典计划器的优点结合到大语言模型中，可以通过自然语言描述解决计划问题，经过实验发现LLM + P可以提供大多数问题的最优解，而LLMs则无法为大多数问题提供甚至可行的计划。

Apr, 2023

关于代码到代码搜索的语义相似性对比学习

本文介绍了一种新的代码到代码搜索技术，通过包括静态和动态特征以及在训练过程中利用相似和不同的示例来提高大型语言模型的性能。我们展示了第一个能够在训练期间编码动态运行时信息的代码搜索方法，在推断时间无需执行搜索语料库或搜索查询，同时还是第一个训练正负参考样本的代码搜索技术。我们通过一系列研究验证了我们方法的有效性，并展示了增强 LLMs 执行跨语言代码到代码搜索的能力。我们的评估表明，我们的方法的效果在各种模型架构和编程语言中都是一致的。此外，我们的消融研究表明，即使在训练过程中只有一个正面和负面参考样本，也会产生相当大的性能提高，这证明了相似和不同的参考是代码搜索的重要部分。重要的是，我们展示了精心制作的、经过调整的模型在性能上始终优于未调整的更大的现代 LLMs，即使是在增强最大可用 LLMs 时也是如此，这凸显了开源模型的重要性。为了确保我们研究的可重复性和可扩展性，我们介绍了一个名为 Cosco 的开源实现和培训过程

May, 2023

理解大型语言模型在自动化规划方面的能力

该研究旨在探讨大型语言模型在自动计划中的应用，研究包括使用何种预训练数据最有效、微调或提示哪种方法最有效以及大型语言模型能否进行计划综合。

May, 2023

LLM规划中何时使用树搜索？取决于鉴别器

本文研究了大型语言模型在语言代理框架下如何通过生成器、鉴别器和规划方法解决多步骤问题。我们调查了两种先进的规划方法，即迭代修正和树搜索的实际效用。通过对文本到SQL解析和数学推理两个任务的实验发现：（1）先进的规划方法要求鉴别器的准确率至少为90％，才能在重新排序方案上实现显著改进；（2）当前的大型语言模型鉴别能力尚未满足先进规划方法实现此类改进的需求；（3）基于大型语言模型的鉴别器可能无法充分平衡准确性和效率。例如，与其他两种方法相比，树搜索的速度至少慢10-20倍，但提供的性能收益微不足道，这限制了它在实际应用中的使用。

Feb, 2024

关于代码生成的大型语言模型调查

基于大规模语言模型的代码生成领域的综述，介绍了对LLMs在代码生成领域的最新进展、数据处理、性能评估、实际应用，对学术与实践之间的差距进行了分析，提出了关键挑战和机遇，并提供了一个资源网站以记录和传播该领域的最新进展。

Jun, 2024

导航迷宫：评估和提高LLMs处理搜索问题的能力

最近，大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是，它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题，我们引入了一个名为SearchBench的新基准测试，其中包含11种独特的搜索问题类型，每种问题类型都配备了自动化流程来生成任意数量的实例，并分析LLM生成解决方案的可行性、正确性和最优性。我们发现，即使是最先进的LLM也无法完全以文本方式解决这些问题，例如GPT4只解决了1.4%的问题。SearchBench的问题要求考虑到多个解决路径以及回溯，这对自回归模型构成了重大挑战。指导LLM生成解决问题的代码会有所帮助，但是仅有轻微的改进，例如GPT4的表现提升到了11.7%。在这项工作中，我们展示了利用A*算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时，它的潜力得到了充分展现，将GPT-4的表现提升到了57%以上。

Jun, 2024

探索和基准测试大型语言模型的规划能力

提高大型语言模型的规划能力，研究领域包括基于上下文学习、微调，以及在未知领域的性能评估。

Jun, 2024

针对语言模型问题解决的计算最优推理的实证分析

本研究针对大型语言模型（LLMs）推理配置不充分探索的问题，提出了一种计算最优推理的方法。我们评估了多种推理策略的有效性和计算效率，发现利用较小的语言模型和新颖的树搜索算法可以在预算受限情况下实现最佳的性能和计算成本配比。这一发现为在资源有限的环境中提升问题解决准确性提供了新的思路。

Aug, 2024

CodePlan：通过扩展代码形式规划释放大型语言模型的推理潜力

本研究解决了大型语言模型在复杂多步骤推理任务中的规划能力不足问题。提出的CODEPLAN方法通过生成和遵循代码形式的计划，提升了推理过程的结构性和灵活性。研究发现，CODEPLAN在13个多步骤推理基准上实现了25.1%的相对提升，展示了其在复杂推理任务上的显著数据效率和泛化能力。

Sep, 2024