自我中心视觉语言规划

Aug, 2024

Egocentric Vision Language Planning

Zhirui Fang, Ming Yang, Weishuai Zeng, Boyu Li, Junpeng Yue...

TL;DR本研究解决了大型多模态模型（LMMs）在物理世界中的基础性连接问题，提出了一种新颖的方法，即自我中心视觉语言规划（EgoPlan），以应对不同家庭场景中的长期任务。该模型利用扩散模型模拟状态与动作之间的动态关系，实验结果表明，EgoPlan显著提高了从自我中心视角看待任务的成功率。

Abstract

We explore leveraging large Multi-Modal Models (LMMs) and text2image models to build a more general embodied agent. LMMs excel in planning long-horizon tasks over symbolic abstractions but struggle with grounding in the physical world, often failing to accurately identify object positi

发现论文，激发创造

通过语言模型进行规划的具身推理

研究了大型语言模型在具身化场景下的规划能力，通过自然语言反馈的方式，提高对机器人控制场景的理解和指导完成任务的效果。

Jul, 2022

LLM-Planner: 借助大型语言模型进行少样本基于实例的具身agent规划

本研究使用大型语言模型(Large Language Models, LLMs)作为规划师，以完成视觉感知环境中的复杂任务的具有身体接口的代理人。研究提出了LLM-Planner方法进行few-shot planning，同时提出通过物理接口增强LLMs的简单而有效的方法，实验结果表明该方法在ALFRED数据集上能够取得与使用全数据训练的基线模型相当的性能。

Dec, 2022

EmbodiedGPT: 基于身体思维链的视觉-语言预训练

介绍了 EmbodiedGPT，一种多模式基础模型，用于具有多模式理解和执行能力的具体智能体，可在物理环境中计划和执行动作序列，从而显着提高了具体控制任务的成功率。

May, 2023

可扩展的自我中心规划实现任务完成

本文提出了一种称为“Egocentric Planning”的创新方法，将符号规划和面向对象的POMDP相结合，以解决在复杂环境中的任务。在ALFRED中进行的实验表明，该方法可以在完成家庭任务方面取得显著的成功率。该方法需要可靠的感知和代理动作的先决条件和效果的符号化描述。

Jun, 2023

通过符号世界知识从自我中心视角定位活动对象

通过学习任务指令的对象信息、利用对象的动作前后条件和描述性知识，我们提出了一种改进短语定位模型的方法，通过大型语言模型来提取动作-对象知识，并设计了一种对象短语和符号知识的联合推理技术，实验证明我们的方法在各项指标上都取得了显著的改善。

Oct, 2023

审慎行事：揭示GPT-4V在机器人视觉语言规划中的能量

我们介绍了一种名为Robotic Vision-Language Planning (ViLa)的新方法，该方法结合了视觉-语言模型和长期规划，通过直接整合感知数据来生成可行步骤序列，以在广泛的开放世界操纵任务中展示其优势。

Nov, 2023

EgoPlan-Bench：基于多模态大型语言模型的自我中心体验规划基准测试

多模态大型语言模型（MLLMs）在具有出色推理和概括能力的大型语言模型（LLMs）基础上开辟了新的具身任务规划途径。我们引入了一项人类注释的基准测试EgoPlan-Bench，定量调查MLLMs在现实场景中作为具身任务规划器的潜力，并构建了一个指导调优数据集EgoPlan-IT，这些实验结果表明，通过EgoPlan-IT调优的模型不仅在我们的基准测试中显著提高了性能，还在模拟中有效地扮演了具身规划器的角色。

Dec, 2023

EgoGen:一种自我为中心的合成数据生成器

EgoGen是一种新型的合成数据生成器，可以为主观感知任务提供准确且丰富的真实数据。它采用一种创新的人体运动合成模型，通过利用虚拟人的主观视觉输入来感知三维环境，以解决在增强现实中模拟人类运动和行为的挑战。同时结合了避免碰撞的运动基元和两阶段强化学习方法，该模型可实现闭环解决方案，使虚拟人的感知和运动无缝耦合，并可直接适用于动态环境。EgoGen通过易于使用和可扩展的数据生成流水线，展示了在头戴式摄像机的映射和定位、主观摄像机跟踪以及从主观视角恢复人体网格等三项任务中的有效性。作为一种开源工具，EgoGen旨在为创建逼真的主观感知训练数据提供实用解决方案，并且可作为主观计算机视觉研究的有用工具。

Jan, 2024

基于视觉语言模型的多智能体规划

本研究解决了大型语言模型和视觉语言模型在需要同时进行规划和感知时，因融合多模态信息而导致表现不佳的问题。提出了一种基于单张环境图像的多智能体架构，利用常识知识进行自由形式域的处理，并引入新的全自动评估程序PG2S，以更好地评估规划质量。研究表明，该方法在使用ALFRED数据集时优于现有的KAS指标。

Aug, 2024

自我运动的多模态语言模型 EgoLM

本研究针对可穿戴设备普及后的自我运动学习问题，提出了EgoLM框架，通过多模态输入（如自我中心视频和运动传感器）追踪和理解自我运动。关键创新在于利用大型语言模型来建模自我运动与自然语言的联合分布，从而有效提升了运动追踪和理解的性能。实验结果表明，EgoLM在多模态人类运动数据集上的表现证明其作为通用自我中心学习模型的有效性。

Sep, 2024