Jul, 2024

MFE-ETP:基于多模态基础模型的具身任务规划的综合评估基准

TL;DR本文旨在通过深入全面评估多模态基础模型在具身任务规划方面的性能,以展示其在此领域的能力和局限性,首先基于具身任务规划的特性,构建了一个系统化的评估框架,然后提出了一个名为MFE-ETP的新基准,并提供了一个简单易用的自动评估平台,通过此基准和评估平台,我们评估了几种最先进的多模态基础模型,并发现它们明显落后于人类的表现。MFE-ETP是一个与现实任务相关的高质量、大规模、具有挑战性的基准。