一个尺寸并不适合所有人：个性化定制开放领域的流程

Nov, 2023

一个尺寸并不适合所有人：个性化定制开放领域的流程

One Size Does Not Fit All: Customizing Open-Domain Procedures

Yash Kumar Lal, Li Zhang, Faeze Brahman, Bodhisattwa Prasad Majumder, Peter Clark...

TL;DR首次研究了 LLMs 能够多大程度上个性化定制开放领域的操作过程，使用 CustomPlans 数据集作为个性化代理和执行代理，人工评估结果显示在顺序设置中使用这些代理效果最佳，但仅有约 51% 的准确率，误差分析显示 LLMs 在生成的过程中不能充分满足用户的个性化需求。

Abstract

How-to procedures, such as how to plant a garden, are ubiquitous. But one size does not fit all - humans often need to customize these procedural plans according to their specific needs, e.g., planting a garden without pesticides. While →

customization procedures llms customplans open-domain

发现论文，激发创造

大型语言模型作为规划领域生成器

通过对 7 个大型语言模型进行实证分析，我们发现大型语言模型在从自然语言描述中生成正确的规划领域模型方面具有适中的能力。

Apr, 2024

以人为中心的规划

创建基于 LLMs 的规划器（LLMPlan）与能够将文本约束转化为符号表示的符号规划器（SymPlan），通过自我反思的能力以及对自然语言中模糊约束的合并，LLM 基于规划器在 40 名用户的互动评估中表现出优异的用户满意度（70.5%）且不输于传统符号规划器（40.4%）的显式约束满足率。

Nov, 2023

关于大型语言模型的规划能力（一项带有提议基准的关键调查）

研究了通用 Web 语料库上训练的语言模型的计划能力，开发了基于国际计划竞赛领域的基准套件，在自治、启发式和人机协作模式下对 LLM 进行了评估，发现自主生成可执行计划的能力非常有限，只有约 3% 的成功率。

Feb, 2023

AutoManual: 通过互动环境学习，由 LLM 代理生成指南手册

通过自动生成规则和提高适应性，AutoManual 框架使基于大型语言模型（LLM）的代理能够自主构建自身的理解并适应新的环境。在 ALFWorld 基准任务上，通过 GPT-4-turbo 和 GPT-3.5-turbo，AutoManual 显著提高了任务成功率，并生成了人可读的综合手册。

May, 2024

NL2Plan: 从最简文本描述中驱动的鲁棒性 LLM 规划

NL2Plan 是第一个通用领域脱机驱动计划系统，利用大型语言模型通过逐步提取必要信息从短文本提示创建完整的 PDDL 描述，进而通过经典计划器解决问题，提供解决 15 个任务中 10 个任务的改进以及提高可解释性和 PDDL 创建协助工具的功能。

May, 2024

开放式实地规划：挑战与基准构建

提出了一个新的计划任务 —— 开放式基于实际情况的规划，通过建立一个横跨广泛领域的开放式基于实际情况的规划基准，测试了现有先进的大型语言模型和五种规划方法，并揭示了现有大型语言模型和方法在开放领域的基于实际情况的规划所面临的挑战，为开放式基于实际情况的规划定义和建立了一个基础数据集，并对基于大型语言模型的规划的潜在挑战和未来发展方向进行了探讨。

Jun, 2024

大型语言模型的规划能力 - 一项关键调查

本文旨在研究 LLLms 在常识规划任务中的规划能力，通过在国际计划竞赛中生成一系列实例，并评估 LLMs 在自主规划和启发式两种不同模式下的表现，发现 LLMs 在自主规划方面的表现非常有限，但在启发式模式下，LLMs 生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。

May, 2023

语言模型可以从环境反馈中推断经典计划器的动作语义

提出使用经典规划和大型语言模型共同实施领域归纳、学习和验证动作的前后条件，利用 LLM 推理来启发性地完成经典规划器发出的部分计划，并根据执行后的环境反馈用逻辑语言推断领域的语义规则。通过对 7 个环境的分析表明，使用 LLMs 作为启发性规划器和规则预测器仅需一个专家精心策划的示例计划，就能够比随机探索更少的执行步骤和环境重置，并同时恢复领域的基本行动语义。

Jun, 2024

超越一模型适用于所有场景：大型语言模型领域特化调查

本论文提出了一个系统化的分类方法，将 LLMs 领域专业化技术分类，并讨论了适用于这些技术的关键应用领域的问题和前景，对当前研究状态和未来趋势进行了深入剖析。

May, 2023

正式 - LLM：将正式语言和自然语言整合为可控制的基于 LLM 的代理人

该篇论文提出了一种名为 ``Formal-LLM'' 的新型框架用于基于 LLM 的代理，通过结合自然语言的表现力和形式语言的准确性，使规划过程具有控制性，从而防止代理生成无效和不成功的计划，并且通过实验验证了该框架在任务性能上取得的超过 50% 的整体性能提升，为在规划的有效性至关重要的应用场景中更广泛地利用 LLM 提供了可能性。

Feb, 2024