Aug, 2024

自我中心视觉语言规划

TL;DR本研究解决了大型多模态模型(LMMs)在物理世界中的基础性连接问题,提出了一种新颖的方法,即自我中心视觉语言规划(EgoPlan),以应对不同家庭场景中的长期任务。该模型利用扩散模型模拟状态与动作之间的动态关系,实验结果表明,EgoPlan显著提高了从自我中心视角看待任务的成功率。