Dec, 2023

EgoPlan-Bench:基于多模态大型语言模型的自我中心体验规划基准测试

TL;DR多模态大型语言模型(MLLMs)在具有出色推理和概括能力的大型语言模型(LLMs)基础上开辟了新的具身任务规划途径。我们引入了一项人类注释的基准测试EgoPlan-Bench,定量调查MLLMs在现实场景中作为具身任务规划器的潜力,并构建了一个指导调优数据集EgoPlan-IT,这些实验结果表明,通过EgoPlan-IT调优的模型不仅在我们的基准测试中显著提高了性能,还在模拟中有效地扮演了具身规划器的角色。