利用验证器提高预训练语言模型的规划能力

May, 2023

利用验证器提高预训练语言模型的规划能力

Learning and Leveraging Verifiers to Improve Planning Capabilities of Pre-trained Language Models

Daman Arora, Subbarao Kambhampati

TL;DR本论文通过使用 GPT-2 实验来证明，预训练的大型语言模型在计划方面的表现较差，研究人员首先建立了一个验证器在特定状态下对行动的适用性进行分类，然后在生成器中随机抽样无效动作来训练验证器，在生成器和验证器的共同作用下，取得了不错的成果。

Abstract

There have been wide spread claims in the literature about the emergent reasoning capabilities of pretrained large language models. However, recent studies, have found that their ability to plan remains questionable. Through our experiments using GPT-2, we empirically demonstrate that

pretrained large language models planning capabilities verifier invalid actions sampling temperature

发现论文，激发创造

关于大型语言模型在推理和规划任务上的自验证局限性

通过在三个领域（24 点游戏，图着色，STRIPS 规划）对 GPT-4 的表现进行实证研究，我们观察到自我评估导致性能显著下降，而外部验证则带来显著性能提升；然而，评估内容对系统性能并不重要，事实上，简单地使用一个可信的验证器重新提问可以保持大部分优势。

Feb, 2024

大型语言模型通过自我批判自我提升的真的有效吗？

几乎不存在自我评估的大型语言模型能够成功地在迭代模式下验证或自我批评其候选解决方案的推理问题中。该研究评估了一种利用大型语言模型进行计划生成和验证的计划系统，发现自我批评似乎削弱了计划生成的性能，并且系统的可靠性受到 LLM 验证器产生的显著错误结果的影响，二进制或详细反馈对计划生成几乎没有影响。总体而言，这些结果对于 LLMs 在计划任务的自我批评迭代框架中的有效性产生了质疑。

Oct, 2023

关于大语言模型的规划、搜索和记忆能力

通过对 GPT-4 在规划子领域中的表现进行全面检查，我们鉴定了大型语言模型在解决规划问题方面的优势和限制，并提出了改进领域特定大型语言模型的思维链能力的方法。这些结果为大语言模型在规划领域的潜在应用提供了宝贵的见解，并为未来的研究克服其限制和拓展其能力铺平了道路。

Sep, 2023

大型语言模型仍无法规划 (面向规划和变化推理的 LLM 基准测试)

该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力，从而证明现有的推理基准测试是简单化的，无法支持关于 LLMs 推理能力的夸张的说法，并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。

Jun, 2022

利用预训练的大型语言模型构建和利用世界模型进行基于模型的任务规划

本研究引入了一种新的方法，使用 PDDL 语言构建显式世界模型，并利用预训练的大型语言模型作为 PDDL 和校验器等纠正反馈的接口，以提高计划问题的效率和准确性。在不涉及用户互动的情况下，通过验证 PDDL 模型的正确性，我们制定计划来解决复杂任务并取得成功。

May, 2023

学习在场景图上推理：将 GPT-2 微调为机器人语言模型，用于基于场景的任务规划的案例研究

本文研究了如何通过 GPT-2 等大型语言模型将人类请求转化为机器人可执行的计划，并探讨了 LLM 的长期任务规划的适用性和通用性，结果表明 LLM 可有效地执行长期任务规划，展示了神经符号规划方法在机器人领域的应用前景。

May, 2023

通过调整和多分支推理增强低参数 LLMs 的普通代理能力

通过构建特定于代理的数据和有监督微调模型，以及设计有效激活大型语言模型推理能力的提示方法，我们提出了一种综合的方法来提高大型语言模型作为代理的性能，并通过在 AgentBench 的五个代理任务上的评估取得了令人满意的结果。

Mar, 2024

大型语言模型的规划能力 - 一项关键调查

本文旨在研究 LLLms 在常识规划任务中的规划能力，通过在国际计划竞赛中生成一系列实例，并评估 LLMs 在自主规划和启发式两种不同模式下的表现，发现 LLMs 在自主规划方面的表现非常有限，但在启发式模式下，LLMs 生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。

May, 2023

大语言模型事实核查的风险与前景

自动事实核查（使用机器学习来验证主张）已经变得至关重要，因为虚假信息已经超出了人类事实核查的能力范围。大型语言模型（LLMs），如 GPT-4，越来越受人们的信任，可以验证信息并撰写学术论文、诉讼文件和新闻文章，强调了它们在分辨真假和能够验证其输出的重要性。在这里，我们通过让 LLM 代理人表达查询、检索上下文数据和做出决策来评估 LLMs 在事实核查中的使用。重要的是，在我们的框架中，代理人解释他们的推理并引用检索到的相关来源。我们的结果显示，在配备上下文信息的情况下，LLMs 表现出更强大的能力。GPT-4 优于 GPT-3，但准确性取决于查询语言和主张的真实性。虽然 LLMs 在事实核查方面显示出前景，但仍需要谨慎使用，因为准确性不一致。我们的调研呼吁进一步研究，以更深入地了解代理人何时成功以及何时失败。

Oct, 2023

审慎行事：揭示 GPT-4V 在机器人视觉语言规划中的能量

我们介绍了一种名为 Robotic Vision-Language Planning (ViLa) 的新方法，该方法结合了视觉 - 语言模型和长期规划，通过直接整合感知数据来生成可行步骤序列，以在广泛的开放世界操纵任务中展示其优势。

Nov, 2023