EmbodiedGPT: 基于身体思维链的视觉 - 语言预训练
本文提出了一种利用多模态数据集进行物理约束的低水平嵌入式任务规划方法,并通过与 GPT-3.5 和 LLaVA 等方法进行对比实验,证明了该方法相比其他现有解决方案在普适的复杂环境中具有更高的成功率。
Jul, 2023
提出了一个学习机器人操纵任务高级认知能力的新框架,使用语言模型构建 AlphaBlock 数据集,自动采集综合高级多步文本计划和配对观察序列,使用多模式的闭环计划模型自回归生成计划,从而实现对机器人的精细操作。实验结果表明,该方法显著提高了成功率。
May, 2023
多模态大型语言模型(MLLMs)在具有出色推理和概括能力的大型语言模型(LLMs)基础上开辟了新的具身任务规划途径。我们引入了一项人类注释的基准测试 EgoPlan-Bench,定量调查 MLLMs 在现实场景中作为具身任务规划器的潜力,并构建了一个指导调优数据集 EgoPlan-IT,这些实验结果表明,通过 EgoPlan-IT 调优的模型不仅在我们的基准测试中显著提高了性能,还在模拟中有效地扮演了具身规划器的角色。
Dec, 2023
EmBERT 是一种基于 transformer 的模型,具有语言指导的目的完成能力。它是第一个能够成功处理 ALFRED 的历史记录、多模态的长时间跨度的 transformer 模型,同时也是第一个在 ALFRED 中使用对象导航目标的模型。
Aug, 2021
在这篇研究论文中,我们提出了一种名为 RoboGPT 的机器人代理,通过两个模块(基于 LLMs 的规划与重新规划,以及专为子目标设计的 RoboSkill)来完成日常任务的具体决策。我们使用了一份新的机器人数据集和 RoboGPT 来增强基于 LLMs 的规划,并成功在诸多任务中超越了目前的最先进方法。
Nov, 2023
我们介绍了一种通过整合人类动作观察来增强通用视觉语言模型 GPT-4V (ision) 的流水线,以促进机器人操纵。该系统分析人类执行任务的视频,并创建包含可支配见解的可执行机器人程序。实验表明,该方法在实现从人类示范中的真实机器人操作方面具有显著效果。
Nov, 2023
我们介绍了一种名为 Robotic Vision-Language Planning (ViLa) 的新方法,该方法结合了视觉 - 语言模型和长期规划,通过直接整合感知数据来生成可行步骤序列,以在广泛的开放世界操纵任务中展示其优势。
Nov, 2023
通过 PCA-EVAL 基准和 HOLMES 多智能体协作框架的比较,我们发现 GPT4-Vision 模型在端到端的具体决策制定能力方面表现出色,平均决策准确率比 GPT4-HOLMES 高出 3%,但这种性能仅适用于最新的 GPT4-Vision 模型,超过开源最先进的多模态大型语言模型的 26%。我们的结果表明,像 GPT4-Vision 这样功能强大的多模态大型语言模型对具体决策有很大的潜力,为多模态大型语言模型研究开辟了新的途径。
Oct, 2023
论文提出了一种新的基于大型语言模型的多智能体合作框架,在多种身体环境中测试并得到了良好的效果,其具备规划、沟通和与其他人类或智能体合作完成长期任务等能力,并且与人类沟通的模型更容易获得信任,这为未来的智能体合作研究奠定了基础。
Jul, 2023
本文提出了一种简单但有效的神经语言基础模块,可以使用深度强化学习训练具有身体实体的代理,以执行语言引导的任务,在许多具有挑战性的部分可观察性和简单推理要求的语言引导导航任务中,我们的模块显著优于现有技术;我们还发布了一个易于定制的 3D 环境 XWorld3D,可以潜在地修改以评估各种具体化代理。
May, 2018