探索了任务规格的另一种目标,如来自互联网的图像,提供所需任务的视觉描述的手绘图或简单的语言描述,并研究了大规模预训练模型(基础模型)的能力,以实现零样本目标规格,结果表明在模拟机器人操作任务和真实数据集中具有良好的表现。
Apr, 2022
该文呈现了一种用于采矿最新大规模基础模型中的知识的具体想法,其目的是将低级技能学习扩展至规模化,从而实现授予通才机器人的基础模型,并享有在各种现实场景中执行多种任务的能力。
May, 2023
本文提出了一种基于语言根据分割掩模的新型范例,来应对日常情况下一系列的抓取和放置机器人操作任务,通过将从掩模中传达的精确语义和几何形状与我们的多视点策略模型相结合,使我们的方法能够感知准确的物体姿态并实现样本高效学习。
Jun, 2023
该研究全面概述了大型语言模型(LLMs)和多模态LLMs在各种机器人任务中的整合,并提出了一种利用多模态GPT-4V结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集,我们的结果表明GPT-4V有效地提升了机器人在具身任务中的表现。对LLMs和多模态LLMs在各种机器人任务中的广泛调查和评估丰富了对以LLMs为中心的具身智能的理解,并提供了展望未来的关于人机环境交互的见解。
Jan, 2024
AutoRT利用基础模型扩展操作机器人在未知场景中的部署,通过视觉-语言模型进行场景理解和定位,并利用大规模语言模型提出多样且新颖的指令,实现对机器人群体的指导数据收集,从而显著扩大机器人学习的数据规模。
通过对基础模型在真实世界机器人应用中替换现有组件的主要影响进行概述,本文总结了基础模型在机器人领域中输入输出关系的观点,以及它们在感知、运动规划和控制方面的作用,并讨论了未来挑战和对实际机器人应用的影响。
Feb, 2024
基于在线学习的用户中心化模型选择问题的解决方案通过结合开源编码器输出上下文和处理该上下文的在线学习算法,改善了选择开源和闭源模型之间的权衡,从而大幅提高了任务成功率。
该研究综述了在强化学习和机器人领域中学习视频的方法,重点关注能够扩展到大规模互联网视频数据集,并从中提取关于世界动力学和人类行为的基础知识的方法。该综述介绍了学习视频的基本概念、相关挑战以及应对方法,并讨论了学习视频的机器人学习方法和数据集等方面的问题和机会。
Apr, 2024
本研究解决了机器人学习在数据、泛化和鲁棒性方面的挑战,提出了一种基于预训练视觉-语言模型的流匹配架构,旨在设计有效的通用机器人策略以应对复杂的灵巧任务。研究表明,该模型在零样本任务执行、遵循语言指令以及通过微调获得新技能方面具有显著能力,展现了其在多个机器人任务中的广泛应用潜力。
Oct, 2024
本研究聚焦于机器人学习面临的数据、概括性和鲁棒性挑战,探索特别的机器人基础模型如何克服这些障碍。提出了一种基于预训练的视觉-语言模型的新流匹配架构,能够有效执行复杂和灵活的任务。研究结果显示,该模型在无监督学习下能够立即执行多种任务,并通过微调掌握新技能,对推进通用机器人控制具有重要影响。