LoTa-Bench: 为具有体现性代理的面向语言任务规划器进行基准测试

ICLRFeb, 2024

LoTa-Bench: 为具有体现性代理的面向语言任务规划器进行基准测试

LoTa-Bench: Benchmarking Language-oriented Task Planners for Embodied Agents

Jae-Woo Choi, Youngwoo Yoon, Hyobin Ong, Jaehong Kim, Minsu Jang

TL;DR提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统，对大型语言模型和提示进行了广泛实验，并探索了基线任务规划器的多个改进，预计该基准工具将加快语言导向的任务规划器的发展。

Abstract

large language models (LLMs) have recently received considerable attention as alternative solutions for task planning. However, comparing the performance of →

large language models task planning benchmark system home-service embodied agents language-oriented task planners

发现论文，激发创造

TaskBench: 用于任务自动化的大型语言模型基准测试

最近，大型语言模型的不断进展引发了任务自动化的火花，其将用户指令描述的复杂任务分解为子任务，并调用外部工具执行它们，在自主代理中起着核心作用。然而，缺乏一个系统的和标准化的基准来促进 LLM 在任务自动化中的发展。为此，我们引入了 TaskBench 来评估 LLM 在任务自动化中的能力。具体而言，任务自动化可以分为三个关键阶段：任务分解，工具调用和参数预测以实现用户意图。这种复杂性使得数据收集和评估与常见的自然语言处理任务相比更具挑战性。为了生成高质量的评估数据集，我们引入了工具图的概念来表示用户意图中的分解任务，并采用反指导方法来模拟用户指令和注释。此外，我们提出了 TaskEval 来从任务分解、工具调用和参数预测等不同方面评估 LLM 的能力。实验结果表明，TaskBench 能够有效地反映 LLM 在任务自动化中的能力。借助自动化数据构建和人工验证的综合，TaskBench 相对于人工评估具有高一致性，可以作为 LLM-based 自主代理的全面而可靠的基准。

Nov, 2023

EgoPlan-Bench：基于多模态大型语言模型的自我中心体验规划基准测试

多模态大型语言模型（MLLMs）在具有出色推理和概括能力的大型语言模型（LLMs）基础上开辟了新的具身任务规划途径。我们引入了一项人类注释的基准测试 EgoPlan-Bench，定量调查 MLLMs 在现实场景中作为具身任务规划器的潜力，并构建了一个指导调优数据集 EgoPlan-IT，这些实验结果表明，通过 EgoPlan-IT 调优的模型不仅在我们的基准测试中显著提高了性能，还在模拟中有效地扮演了具身规划器的角色。

Dec, 2023

LLM-Planner: 借助大型语言模型进行少样本基于实例的具身 agent 规划

本研究使用大型语言模型 (Large Language Models, LLMs) 作为规划师，以完成视觉感知环境中的复杂任务的具有身体接口的代理人。研究提出了 LLM-Planner 方法进行 few-shot planning，同时提出通过物理接口增强 LLMs 的简单而有效的方法，实验结果表明该方法在 ALFRED 数据集上能够取得与使用全数据训练的基线模型相当的性能。

Dec, 2022

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

关于大型语言模型的规划能力（一项带有提议基准的关键调查）

研究了通用 Web 语料库上训练的语言模型的计划能力，开发了基于国际计划竞赛领域的基准套件，在自治、启发式和人机协作模式下对 LLM 进行了评估，发现自主生成可执行计划的能力非常有限，只有约 3% 的成功率。

Feb, 2023

基于大语言模型的具身化任务规划

本文提出了一种利用多模态数据集进行物理约束的低水平嵌入式任务规划方法，并通过与 GPT-3.5 和 LLaVA 等方法进行对比实验，证明了该方法相比其他现有解决方案在普适的复杂环境中具有更高的成功率。

Jul, 2023

TPTU：基于大型语言模型的人工智能代理任务规划和工具使用

通过设计两种不同类型的代理进程（即一步代理和连续代理），我们在 LLM 的基础上实例化了一个结构化框架，评估了它们在 typcial 任务的任务规划和工具使用能力，并突出了这些模型的巨大潜力以及需要进一步研究和改进的领域。

Aug, 2023

TPTU-v2：在现实世界系统中增强基于大型语言模型的代理人的任务规划与工具使用

该论文介绍了一个综合框架，旨在增强基于大型语言模型的代理在实际系统中的任务规划和工具使用能力，通过 API 检索器选择相关 API、LLM 精调器调整基础 LLM 以增强规划和 API 调用能力、以及演示选择器用于区分难以辨别的 API 并进行上下文学习，验证结果显示每个组件及整合框架的有效性。

Nov, 2023

探索和基准测试大型语言模型的规划能力

提高大型语言模型的规划能力，研究领域包括基于上下文学习、微调，以及在未知领域的性能评估。

Jun, 2024

使用大型语言模型生成机器人任务计划

通过使用编程式的提示结构，可以促使大型语言模型在不同的环境、机器人能力和任务中进行计划生成，从而大大减少了任务规划中需要定义的领域知识。

Sep, 2022