MFE-ETP:基于多模态基础模型的具身任务规划的综合评估基准
介绍了针对仿真环境中的日常家务活动设立的 BEHAVIOR 基准,该基准涵盖 100 项活动,涉及清洁、维护和食品制备等各种方面,并使用面向对象的逻辑谓词为活动的初始条件和目标条件进行描述,提出了基于度量标准的计算方法以及一套实现该基准所需的环境,以绝对和相对于人类示范者的方式度量任务进展和效率。
Aug, 2021
介绍了 EmbodiedGPT,一种多模式基础模型,用于具有多模式理解和执行能力的具体智能体,可在物理环境中计划和执行动作序列,从而显着提高了具体控制任务的成功率。
May, 2023
通过PCA-EVAL基准和HOLMES多智能体协作框架的比较,我们发现GPT4-Vision模型在端到端的具体决策制定能力方面表现出色,平均决策准确率比GPT4-HOLMES高出3%,但这种性能仅适用于最新的GPT4-Vision模型,超过开源最先进的多模态大型语言模型的26%。我们的结果表明,像GPT4-Vision这样功能强大的多模态大型语言模型对具体决策有很大的潜力,为多模态大型语言模型研究开辟了新的途径。
Oct, 2023
多模态大型语言模型(MLLMs)在具有出色推理和概括能力的大型语言模型(LLMs)基础上开辟了新的具身任务规划途径。我们引入了一项人类注释的基准测试EgoPlan-Bench,定量调查MLLMs在现实场景中作为具身任务规划器的潜力,并构建了一个指导调优数据集EgoPlan-IT,这些实验结果表明,通过EgoPlan-IT调优的模型不仅在我们的基准测试中显著提高了性能,还在模拟中有效地扮演了具身规划器的角色。
Dec, 2023
提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统,对大型语言模型和提示进行了广泛实验,并探索了基线任务规划器的多个改进,预计该基准工具将加快语言导向的任务规划器的发展。
Feb, 2024
PCA-Bench是一个用于评估多模态大型语言模型(MLLMs)综合能力的多模态决策基准,引入了三个复杂场景:自动驾驶、家庭机器人和开放世界游戏,并提出了误差定位能力和自动评估协议PCA-Eval对10种著名MLLM进行评估结果显示开源模型和GPT-4 Vision等强大专有模型之间存在显著性能差异,通过引入基于体验环境的自动框架Embodied-Instruction-Evolution(EIE),在PCA-Bench中生成了7,510个训练示例,并提高了开源MLLM的性能,偶尔超越GPT-4 Vision(+3%决策准确性),验证了EIE的有效性,发现GPT4-Vision之类的鲁棒MLLM对体验型代理的决策具有潜力,为MLLM研究开辟了新的道路。
Feb, 2024
在此研究中,提出了OPEx框架,它通过展示Observer、Planner和Executor的核心组成部分,深入分析了每个组件对Embodied Instruction Following任务性能的影响,并通过在TextWorld上部署多智能体对话策略来进一步提高性能。实验结果表明,引入大型语言模型和多智能体框架可以显著改善Embodied Instruction Following的结果。
Mar, 2024
实际多模态问题很少通过单一的机器学习模型来解决,通常需要多步计算计划,涉及多个模型的组合。本文引入了一个包含4K+多步多模态任务的基准,其中包括33种工具,涵盖多模态模型、(免费)公共API和图像处理模块,通过使用实际工具集生成自动计划,并提供了一个高质量、可人工验证并可正确执行的任务计划子集。通过对6种流行的LLM模型进行评估,采用两种规划策略(多步骤与逐步规划)、两种计划格式(JSON与代码)和三种反馈类型(解析/验证/执行),并总结了广泛实验的经验教训。
Mar, 2024
近期大型视觉-语言模型(LVLMs)的快速发展表明它们在具体任务中的潜力,然而,目前的LVLMs在具体环境中的空间理解能力尚未得到充分评估,这使得当前LVLMs与合格的具体智能之间存在未知差距。为此,我们构建了EmbSpatial-Bench,这是一个用于评估LVLMs具体空间理解能力的基准测试。该基准测试是从具体场景自动衍生而来的,涵盖了从个体视角出发的6种空间关系。实验证明了研究结果,即当前的LVLMs(甚至包括GPT-4V)的容量不足,我们进一步提出了EmbSpatial-SFT,这是一个旨在提高LVLMs具体空间理解能力的指导调优数据集。
Jun, 2024
本研究针对大型多模态模型在真实环境中的感知、推理、规划和行动能力的不足,提出了Can-Do数据集,通过更复杂的场景评估具身规划能力。我们还提出了神经符号框架NeuroGround,以环境状态为基础生成计划,结合符号规划引擎增强模型产生的计划,实验结果显示该框架优于现有方法。
Sep, 2024