LHManip:用于杂乱桌面环境中的长时程语言驱动操作任务的数据集
该研究介绍了一种利用大型语言模型(LLMs)的能力生成通用长视野操作的基本任务条件的框架,用于对新颖物体和未知任务进行操作。这些任务条件用于指导长时程任务执行中动态运动基元(DMP)轨迹的生成和调整。我们还基于 Pybullet 创建了一个用于进行长时程任务评估的具有挑战性的机器人操纵任务套件。在模拟和现实环境中进行的大量实验证明了我们的框架在涉及新对象的熟悉任务和新颖但相关任务上的有效性,突显了大型语言模型在提升机器人系统的多功能性和适应性方面的潜力。
Oct, 2023
本研究基于体验工具人和大型语言模型的融合,在长时序任务中通过引入颜色、尺寸、空间、算术和参考等多个方面的推理来进行桌面操作,提出了一个模拟基准测试过程,同时探索通过标题生成和可学习接口来弥合模态差距,以改进当前流行模型在长时序桌面操作任务中的表现。
Oct, 2023
本研究旨在解锁机器人实现多模感知的能力,以通过单次模仿学习技术普及各种真实世界技能,通过收集千万级别的真实世界接触式机器人操作记录构建的开源数据集提高任务和动作规划的性能。
Jul, 2023
该研究介绍了一个包含双臂任务和 / 或需要细致操纵的多样化对象操作数据集,数据集包括 224k 个剧集、双臂精细任务以及语言指令,并应用于 Dual-Action and Attention (DAA) 模型,该模型在真实机器人操作任务中展示了其在细致操纵方面的能力。
Jan, 2024
我们介绍了一个基于人类语言指令的桌面环境下,侧重于任务分配和长时间跨度物体操作的多机器人语言条件操作(LEMMA)基准。LEMMA 具有多种类型的过程生成任务,其复杂度不同,其中一些需要机器人使用工具并将工具传递给彼此。为每个任务提供 800 个专家示范和人类指令进行训练和评估。LEMMA 相对于现有基准提出了更大的挑战,因为它要求系统识别每个操纵器的限制,并相应地分配子任务,同时还要处理每个任务中的强时间依赖。为应对这些挑战,我们提出了一种基于模块化分层规划方法作为基线。我们的结果突显了 LEMMA 在开发未来语言条件多机器人系统方面的潜力。
Aug, 2023
本研究提出了一种基于 Transformer 的方法来处理人类语言指令和多视角场景观察,以提高机器人的精准操作,并在 RLBench 基准测试中成功实现 74 项任务,还表现出对未曾见过变化的任务的良好泛化性能。
Sep, 2022
Manipulate-Anything 是一种可扩展的自动化生成方法,在没有特权状态信息、手动设计的技能的情况下,在真实环境中操作任何静态物体,其生成的演示数据可以用于生成鲁棒的行为克隆策略。
Jun, 2024
利用大型语言模型(LLM)的语言感知和上下文学习能力,开发了基于 LLM 的双手动作协调系统(LABOR Agent),用于解决双手操作任务的时空协调问题,并通过在仿真环境中测试实验证明其接近最优性能。
Apr, 2024
通过人机协作的方式,本文提出了一种增强基于大型语言模型的自主操作的方法,并应用于机器人的高级语言指令解析、运动规划和理解环境。在与人类的互动过程中,通过结合远程操作和动态运动原理实现机器人从人类引导中学习。通过实验表明,在复杂轨迹规划和环境推理方面,基于大型语言模型的机器人通过融入人类示范可以高效地完成任务。
Jun, 2024