一个尺寸并不适合所有人:个性化定制开放领域的流程
创建基于 LLMs 的规划器(LLMPlan)与能够将文本约束转化为符号表示的符号规划器(SymPlan),通过自我反思的能力以及对自然语言中模糊约束的合并,LLM 基于规划器在 40 名用户的互动评估中表现出优异的用户满意度(70.5%)且不输于传统符号规划器(40.4%)的显式约束满足率。
Nov, 2023
研究了通用 Web 语料库上训练的语言模型的计划能力,开发了基于国际计划竞赛领域的基准套件,在自治、启发式和人机协作模式下对 LLM 进行了评估,发现自主生成可执行计划的能力非常有限,只有约 3% 的成功率。
Feb, 2023
通过自动生成规则和提高适应性,AutoManual 框架使基于大型语言模型(LLM)的代理能够自主构建自身的理解并适应新的环境。在 ALFWorld 基准任务上,通过 GPT-4-turbo 和 GPT-3.5-turbo,AutoManual 显著提高了任务成功率,并生成了人可读的综合手册。
May, 2024
NL2Plan 是第一个通用领域脱机驱动计划系统,利用大型语言模型通过逐步提取必要信息从短文本提示创建完整的 PDDL 描述,进而通过经典计划器解决问题,提供解决 15 个任务中 10 个任务的改进以及提高可解释性和 PDDL 创建协助工具的功能。
May, 2024
提出了一个新的计划任务 —— 开放式基于实际情况的规划,通过建立一个横跨广泛领域的开放式基于实际情况的规划基准,测试了现有先进的大型语言模型和五种规划方法,并揭示了现有大型语言模型和方法在开放领域的基于实际情况的规划所面临的挑战,为开放式基于实际情况的规划定义和建立了一个基础数据集,并对基于大型语言模型的规划的潜在挑战和未来发展方向进行了探讨。
Jun, 2024
本文旨在研究 LLLms 在常识规划任务中的规划能力,通过在国际计划竞赛中生成一系列实例,并评估 LLMs 在自主规划和启发式两种不同模式下的表现,发现 LLMs 在自主规划方面的表现非常有限,但在启发式模式下,LLMs 生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。
May, 2023
提出使用经典规划和大型语言模型共同实施领域归纳、学习和验证动作的前后条件,利用 LLM 推理来启发性地完成经典规划器发出的部分计划,并根据执行后的环境反馈用逻辑语言推断领域的语义规则。通过对 7 个环境的分析表明,使用 LLMs 作为启发性规划器和规则预测器仅需一个专家精心策划的示例计划,就能够比随机探索更少的执行步骤和环境重置,并同时恢复领域的基本行动语义。
Jun, 2024
本论文提出了一个系统化的分类方法,将 LLMs 领域专业化技术分类,并讨论了适用于这些技术的关键应用领域的问题和前景,对当前研究状态和未来趋势进行了深入剖析。
May, 2023
该篇论文提出了一种名为 ``Formal-LLM'' 的新型框架用于基于 LLM 的代理,通过结合自然语言的表现力和形式语言的准确性,使规划过程具有控制性,从而防止代理生成无效和不成功的计划,并且通过实验验证了该框架在任务性能上取得的超过 50% 的整体性能提升,为在规划的有效性至关重要的应用场景中更广泛地利用 LLM 提供了可能性。
Feb, 2024