自然语言规划改善大语言模型代码生成的搜索能力
本文提出了一种新的Transformer解码算法PG-TD,使用规划算法进行预见性搜索和引导Transformer生成更好的程序,可以生成具有更高性能的程序,提升了控制代码生成的能力,并设计了一种机制使算法具有计算效率。
Mar, 2023
本文介绍了LLM + P框架,将经典计划器的优点结合到大语言模型中,可以通过自然语言描述解决计划问题,经过实验发现LLM + P可以提供大多数问题的最优解,而LLMs则无法为大多数问题提供甚至可行的计划。
Apr, 2023
本文介绍了一种新的代码到代码搜索技术,通过包括静态和动态特征以及在训练过程中利用相似和不同的示例来提高大型语言模型的性能。我们展示了第一个能够在训练期间编码动态运行时信息的代码搜索方法,在推断时间无需执行搜索语料库或搜索查询,同时还是第一个训练正负参考样本的代码搜索技术。我们通过一系列研究验证了我们方法的有效性,并展示了增强 LLMs 执行跨语言代码到代码搜索的能力。我们的评估表明,我们的方法的效果在各种模型架构和编程语言中都是一致的。此外,我们的消融研究表明,即使在训练过程中只有一个正面和负面参考样本,也会产生相当大的性能提高,这证明了相似和不同的参考是代码搜索的重要部分。重要的是,我们展示了精心制作的、经过调整的模型在性能上始终优于未调整的更大的现代 LLMs,即使是在增强最大可用 LLMs 时也是如此,这凸显了开源模型的重要性。为了确保我们研究的可重复性和可扩展性,我们介绍了一个名为 Cosco 的开源实现和培训过程
May, 2023
本文研究了大型语言模型在语言代理框架下如何通过生成器、鉴别器和规划方法解决多步骤问题。我们调查了两种先进的规划方法,即迭代修正和树搜索的实际效用。通过对文本到SQL解析和数学推理两个任务的实验发现:(1)先进的规划方法要求鉴别器的准确率至少为90%,才能在重新排序方案上实现显著改进;(2)当前的大型语言模型鉴别能力尚未满足先进规划方法实现此类改进的需求;(3)基于大型语言模型的鉴别器可能无法充分平衡准确性和效率。例如,与其他两种方法相比,树搜索的速度至少慢10-20倍,但提供的性能收益微不足道,这限制了它在实际应用中的使用。
Feb, 2024
基于大规模语言模型的代码生成领域的综述,介绍了对LLMs在代码生成领域的最新进展、数据处理、性能评估、实际应用,对学术与实践之间的差距进行了分析,提出了关键挑战和机遇,并提供了一个资源网站以记录和传播该领域的最新进展。
Jun, 2024
最近,大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是,它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题,我们引入了一个名为SearchBench的新基准测试,其中包含11种独特的搜索问题类型,每种问题类型都配备了自动化流程来生成任意数量的实例,并分析LLM生成解决方案的可行性、正确性和最优性。我们发现,即使是最先进的LLM也无法完全以文本方式解决这些问题,例如GPT4只解决了1.4%的问题。SearchBench的问题要求考虑到多个解决路径以及回溯,这对自回归模型构成了重大挑战。指导LLM生成解决问题的代码会有所帮助,但是仅有轻微的改进,例如GPT4的表现提升到了11.7%。在这项工作中,我们展示了利用A*算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时,它的潜力得到了充分展现,将GPT-4的表现提升到了57%以上。
Jun, 2024
本研究针对大型语言模型(LLMs)推理配置不充分探索的问题,提出了一种计算最优推理的方法。我们评估了多种推理策略的有效性和计算效率,发现利用较小的语言模型和新颖的树搜索算法可以在预算受限情况下实现最佳的性能和计算成本配比。这一发现为在资源有限的环境中提升问题解决准确性提供了新的思路。
Aug, 2024
本研究解决了大型语言模型在复杂多步骤推理任务中的规划能力不足问题。提出的CODEPLAN方法通过生成和遵循代码形式的计划,提升了推理过程的结构性和灵活性。研究发现,CODEPLAN在13个多步骤推理基准上实现了25.1%的相对提升,展示了其在复杂推理任务上的显著数据效率和泛化能力。
Sep, 2024