自我中心视觉语言规划
本研究使用大型语言模型(Large Language Models, LLMs)作为规划师,以完成视觉感知环境中的复杂任务的具有身体接口的代理人。研究提出了LLM-Planner方法进行few-shot planning,同时提出通过物理接口增强LLMs的简单而有效的方法,实验结果表明该方法在ALFRED数据集上能够取得与使用全数据训练的基线模型相当的性能。
Dec, 2022
介绍了 EmbodiedGPT,一种多模式基础模型,用于具有多模式理解和执行能力的具体智能体,可在物理环境中计划和执行动作序列,从而显着提高了具体控制任务的成功率。
May, 2023
本文提出了一种称为“Egocentric Planning”的创新方法,将符号规划和面向对象的POMDP相结合,以解决在复杂环境中的任务。在ALFRED中进行的实验表明,该方法可以在完成家庭任务方面取得显著的成功率。该方法需要可靠的感知和代理动作的先决条件和效果的符号化描述。
Jun, 2023
通过学习任务指令的对象信息、利用对象的动作前后条件和描述性知识,我们提出了一种改进短语定位模型的方法,通过大型语言模型来提取动作-对象知识,并设计了一种对象短语和符号知识的联合推理技术,实验证明我们的方法在各项指标上都取得了显著的改善。
Oct, 2023
我们介绍了一种名为Robotic Vision-Language Planning (ViLa)的新方法,该方法结合了视觉-语言模型和长期规划,通过直接整合感知数据来生成可行步骤序列,以在广泛的开放世界操纵任务中展示其优势。
Nov, 2023
多模态大型语言模型(MLLMs)在具有出色推理和概括能力的大型语言模型(LLMs)基础上开辟了新的具身任务规划途径。我们引入了一项人类注释的基准测试EgoPlan-Bench,定量调查MLLMs在现实场景中作为具身任务规划器的潜力,并构建了一个指导调优数据集EgoPlan-IT,这些实验结果表明,通过EgoPlan-IT调优的模型不仅在我们的基准测试中显著提高了性能,还在模拟中有效地扮演了具身规划器的角色。
Dec, 2023
EgoGen是一种新型的合成数据生成器,可以为主观感知任务提供准确且丰富的真实数据。它采用一种创新的人体运动合成模型,通过利用虚拟人的主观视觉输入来感知三维环境,以解决在增强现实中模拟人类运动和行为的挑战。同时结合了避免碰撞的运动基元和两阶段强化学习方法,该模型可实现闭环解决方案,使虚拟人的感知和运动无缝耦合,并可直接适用于动态环境。EgoGen通过易于使用和可扩展的数据生成流水线,展示了在头戴式摄像机的映射和定位、主观摄像机跟踪以及从主观视角恢复人体网格等三项任务中的有效性。作为一种开源工具,EgoGen旨在为创建逼真的主观感知训练数据提供实用解决方案,并且可作为主观计算机视觉研究的有用工具。
Jan, 2024
本研究解决了大型语言模型和视觉语言模型在需要同时进行规划和感知时,因融合多模态信息而导致表现不佳的问题。提出了一种基于单张环境图像的多智能体架构,利用常识知识进行自由形式域的处理,并引入新的全自动评估程序PG2S,以更好地评估规划质量。研究表明,该方法在使用ALFRED数据集时优于现有的KAS指标。
Aug, 2024
本研究针对可穿戴设备普及后的自我运动学习问题,提出了EgoLM框架,通过多模态输入(如自我中心视频和运动传感器)追踪和理解自我运动。关键创新在于利用大型语言模型来建模自我运动与自然语言的联合分布,从而有效提升了运动追踪和理解的性能。实验结果表明,EgoLM在多模态人类运动数据集上的表现证明其作为通用自我中心学习模型的有效性。
Sep, 2024