MFE-ETP：基于多模态基础模型的具身任务规划的综合评估基准

Jul, 2024

MFE-ETP：基于多模态基础模型的具身任务规划的综合评估基准

MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planning

Min Zhang, Jianye Hao, Xian Fu, Peilong Han, Hao Zhang...

TL;DR本文旨在通过深入全面评估多模态基础模型在具身任务规划方面的性能，以展示其在此领域的能力和局限性，首先基于具身任务规划的特性，构建了一个系统化的评估框架，然后提出了一个名为MFE-ETP的新基准，并提供了一个简单易用的自动评估平台，通过此基准和评估平台，我们评估了几种最先进的多模态基础模型，并发现它们明显落后于人类的表现。MFE-ETP是一个与现实任务相关的高质量、大规模、具有挑战性的基准。

Abstract

In recent years, multi-modal foundation models (MFMs) and embodied artificial intelligence (EAI) have been advancing side by side at an unprecedented pace. The integration of the two has garnered significant atte

发现论文，激发创造

虚拟、交互和生态环境下日常家庭活动基准测试（BEHAVIOR）

介绍了针对仿真环境中的日常家务活动设立的 BEHAVIOR 基准，该基准涵盖 100 项活动，涉及清洁、维护和食品制备等各种方面，并使用面向对象的逻辑谓词为活动的初始条件和目标条件进行描述，提出了基于度量标准的计算方法以及一套实现该基准所需的环境，以绝对和相对于人类示范者的方式度量任务进展和效率。

Aug, 2021

EmbodiedGPT: 基于身体思维链的视觉-语言预训练

介绍了 EmbodiedGPT，一种多模式基础模型，用于具有多模式理解和执行能力的具体智能体，可在物理环境中计划和执行动作序列，从而显着提高了具体控制任务的成功率。

May, 2023

通过多模态大型语言模型实现端到端的具身决策: GPT4-Vision及其后续探索

通过PCA-EVAL基准和HOLMES多智能体协作框架的比较，我们发现GPT4-Vision模型在端到端的具体决策制定能力方面表现出色，平均决策准确率比GPT4-HOLMES高出3%，但这种性能仅适用于最新的GPT4-Vision模型，超过开源最先进的多模态大型语言模型的26%。我们的结果表明，像GPT4-Vision这样功能强大的多模态大型语言模型对具体决策有很大的潜力，为多模态大型语言模型研究开辟了新的途径。

Oct, 2023

EgoPlan-Bench：基于多模态大型语言模型的自我中心体验规划基准测试

多模态大型语言模型（MLLMs）在具有出色推理和概括能力的大型语言模型（LLMs）基础上开辟了新的具身任务规划途径。我们引入了一项人类注释的基准测试EgoPlan-Bench，定量调查MLLMs在现实场景中作为具身任务规划器的潜力，并构建了一个指导调优数据集EgoPlan-IT，这些实验结果表明，通过EgoPlan-IT调优的模型不仅在我们的基准测试中显著提高了性能，还在模拟中有效地扮演了具身规划器的角色。

Dec, 2023

LoTa-Bench: 为具有体现性代理的面向语言任务规划器进行基准测试

提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统，对大型语言模型和提示进行了广泛实验，并探索了基线任务规划器的多个改进，预计该基准工具将加快语言导向的任务规划器的发展。

Feb, 2024

PCA-Bench: 评估感知-认知-行动链中的多模态大型语言模型

PCA-Bench是一个用于评估多模态大型语言模型（MLLMs）综合能力的多模态决策基准，引入了三个复杂场景：自动驾驶、家庭机器人和开放世界游戏，并提出了误差定位能力和自动评估协议PCA-Eval对10种著名MLLM进行评估结果显示开源模型和GPT-4 Vision等强大专有模型之间存在显著性能差异，通过引入基于体验环境的自动框架Embodied-Instruction-Evolution（EIE），在PCA-Bench中生成了7,510个训练示例，并提高了开源MLLM的性能，偶尔超越GPT-4 Vision（+3％决策准确性），验证了EIE的有效性，发现GPT4-Vision之类的鲁棒MLLM对体验型代理的决策具有潜力，为MLLM研究开辟了新的道路。

Feb, 2024

OPEx: 对体现教学指导中面向语言模型的组件式代理的分析

在此研究中，提出了OPEx框架，它通过展示Observer、Planner和Executor的核心组成部分，深入分析了每个组件对Embodied Instruction Following任务性能的影响，并通过在TextWorld上部署多智能体对话策略来进一步提高性能。实验结果表明，引入大型语言模型和多智能体框架可以显著改善Embodied Instruction Following的结果。

Mar, 2024

m&m's: 评估多步骤多模态任务工具使用的基准

实际多模态问题很少通过单一的机器学习模型来解决，通常需要多步计算计划，涉及多个模型的组合。本文引入了一个包含4K+多步多模态任务的基准，其中包括33种工具，涵盖多模态模型、（免费）公共API和图像处理模块，通过使用实际工具集生成自动计划，并提供了一个高质量、可人工验证并可正确执行的任务计划子集。通过对6种流行的LLM模型进行评估，采用两种规划策略（多步骤与逐步规划）、两种计划格式（JSON与代码）和三种反馈类型（解析/验证/执行），并总结了广泛实验的经验教训。

Mar, 2024

EmbSpatial-Bench：基于大型视觉-语言模型的空间理解能力基准评估

近期大型视觉-语言模型（LVLMs）的快速发展表明它们在具体任务中的潜力，然而，目前的LVLMs在具体环境中的空间理解能力尚未得到充分评估，这使得当前LVLMs与合格的具体智能之间存在未知差距。为此，我们构建了EmbSpatial-Bench，这是一个用于评估LVLMs具体空间理解能力的基准测试。该基准测试是从具体场景自动衍生而来的，涵盖了从个体视角出发的6种空间关系。实验证明了研究结果，即当前的LVLMs（甚至包括GPT-4V）的容量不足，我们进一步提出了EmbSpatial-SFT，这是一个旨在提高LVLMs具体空间理解能力的指导调优数据集。

Jun, 2024

可以做到！一个用于具身规划的大型多模态模型的数据集和神经符号基础框架

本研究针对大型多模态模型在真实环境中的感知、推理、规划和行动能力的不足，提出了Can-Do数据集，通过更复杂的场景评估具身规划能力。我们还提出了神经符号框架NeuroGround，以环境状态为基础生成计划，结合符号规划引擎增强模型产生的计划，实验结果显示该框架优于现有方法。

Sep, 2024