用程式化警告和提示数据集评估语言模型的隐性规划技能

Mar, 2024

用程式化警告和提示数据集评估语言模型的隐性规划技能

PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset

Arda Uzunoğlu, Abdalfatah Rashid Safa, Gözde Gül Şahin

TL;DR使用 PARADISE 数据集和任务，探讨大型语言模型在实际过程文本中推理和计划能力的强弱，发现使用任务特定的小型模型在大多数情况下效果更好，但所有模型都无法与人类表现相媲美。

Abstract

Recently, there has been growing interest within the community regarding whether large language models are capable of planning or executing plans. However, most prior studies use LLMs to generate high-level plans for simplified scenarios lacking linguistic complexity and domain diversi

large language models planning abilities linguistic nuances abductive reasoning task task-specific small models

发现论文，激发创造

明确规划有助于语言模型在逻辑推理中的表现

在本文中，我们提出了一个使用语言模型进行多步逻辑推理的新型系统，该系统将显式计划纳入其推理过程中，从而通过向前看到它们的未来效果，能够在每一步上做出更明智的推理决策。在我们的实验中，我们的完整系统明显优于其他竞争系统，在多项选择题回答任务中，我们的系统表现与 GPT-3-davinci 相当，尽管只有约 15B 的参数。我们进行了几项削减研究，以证明显式计划在系统性能中起着重要作用。

Mar, 2023

利用预训练的大型语言模型构建和利用世界模型进行基于模型的任务规划

本研究引入了一种新的方法，使用 PDDL 语言构建显式世界模型，并利用预训练的大型语言模型作为 PDDL 和校验器等纠正反馈的接口，以提高计划问题的效率和准确性。在不涉及用户互动的情况下，通过验证 PDDL 模型的正确性，我们制定计划来解决复杂任务并取得成功。

May, 2023

大型语言模型作为规划领域生成器

通过对 7 个大型语言模型进行实证分析，我们发现大型语言模型在从自然语言描述中生成正确的规划领域模型方面具有适中的能力。

Apr, 2024

基于视觉理解规划的语言模型无需视觉输入推断详细计划

本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列，通过实证表明，结合一定的视觉信息和上下文语境，GPT-2 模型能够成功地生成金标准语句执行序列，为基于语言的虚拟代理提供了强大的视觉语义规划模块。

Sep, 2020

使用语言模型进行小样本子目标规划

本文探讨了预训练的大型语言模型在预测现实世界环境中可行的计划方面的能力，表明预先训练的语言模型中的语言优先级允许我们推断出细粒度的子目标序列，并提出了一种通过环境的交互和反馈重新排列语言模型预测的简单策略，结合预先训练的导航和视觉推理组件在 ALFRED 基准测试中表现优秀。

May, 2022

PlaSma: 将小型语言模型转化为更好的规程知识模型，用于（反事实的）规划

本文提出了 PlaSma，一种利用小型语言模型赋予程序化知识和（反事实的）规划能力的新方法，并介绍了计划的符号化程序知识蒸馏和推理时间算法以及一个新的任务，即对计划进行修订以应对反事实情况的 “反事实规划”，并展示了在原始和反事实情况下，规模比大的教师模型（770M-11B 参数）小几个数量级的模型可以达到甚至超越它们的能力。

May, 2023

语言模型可以从环境反馈中推断经典计划器的动作语义

提出使用经典规划和大型语言模型共同实施领域归纳、学习和验证动作的前后条件，利用 LLM 推理来启发性地完成经典规划器发出的部分计划，并根据执行后的环境反馈用逻辑语言推断领域的语义规则。通过对 7 个环境的分析表明，使用 LLMs 作为启发性规划器和规则预测器仅需一个专家精心策划的示例计划，就能够比随机探索更少的执行步骤和环境重置，并同时恢复领域的基本行动语义。

Jun, 2024

PROC2PDDL: 从文本生成开放领域的规划表示

使用文本环境进行规划仍然是人工智能系统面临的主要挑战之一。最近的研究方法使用语言模型来预测规划领域定义（例如 PDDL），但仅在封闭领域的模拟环境中进行评估。为了解决这个问题，我们提出了 Proc2PDDL，这是第一个包含开放领域流程文本和专家注释的 PDDL 表示的数据集。利用这个数据集，我们评估了最先进的模型在定义行动的前提条件和效果方面的性能。我们展示了 Proc2PDDL 数据集的高度挑战性，GPT-3.5 的成功率接近于 0%，而 GPT-4 的成功率约为 35%。我们的分析表明存在句法和语义错误，这表明语言模型在生成领域特定程序和推理事件方面存在不足。我们希望这个分析和数据集有助于未来将语言模型和形式规划的优点融合在一起。

Feb, 2024

LoTa-Bench: 为具有体现性代理的面向语言任务规划器进行基准测试

提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统，对大型语言模型和提示进行了广泛实验，并探索了基线任务规划器的多个改进，预计该基准工具将加快语言导向的任务规划器的发展。

Feb, 2024

使用大型语言模型生成机器人任务计划

通过使用编程式的提示结构，可以促使大型语言模型在不同的环境、机器人能力和任务中进行计划生成，从而大大减少了任务规划中需要定义的领域知识。

Sep, 2022