PoCo: 来自和为异构机器人学习的政策组合

Feb, 2024

PoCo: 来自和为异构机器人学习的政策组合

PoCo: Policy Composition from and for Heterogeneous Robot Learning

Lirui Wang, Jialiang Zhao, Yilun Du, Edward H. Adelson, Russ Tedrake

TL;DR从异构数据中训练通用机器人策略，使用Policy Composition方法将不同模态和领域的数据结合起来，学习场景级和任务级的广义操作技能，实现对多任务操作的灵活综合和推理时策略行为的自适应。在模拟和真实世界实验中，该组合策略在不同场景和任务下实现了稳健和灵巧的性能，并优于单个数据源的基线结果。

Abstract

Training general robotic policies from heterogeneous data for different tasks is a significant challenge. Existing robotic datasets vary in different modalities such as color, depth, tactile, and proprioceptive i

发现论文，激发创造

利用弱标记图像推广基于视觉的机器人技能

研究了机器人感知运动控制策略的广义学习问题，提出了一种称为 GPLAC 的方法来提高机器人策略的泛化能力，结合多任务学习和辅助二进制分类目标，通过卷积神经网络和注意力机制，将交互数据与弱标记的数据集相结合，大大提高了对未知环境的泛化能力。

Aug, 2017

学习机器人技能组合模型，用于任务和动作规划

该研究旨在通过学习使用感知运动基元来解决复杂的长期规划操作问题，其需要将基本技能组合成新的技能来推广应用于广泛的问题中，同时使用高效的主动学习和采样方法，将学习和规划方法结合来规划各种复杂的动态操作任务。

Jun, 2020

控制任务组合泛化的策略架构

该研究提出了一种基于任务实体组成结构的框架和适当的策略设计，旨在解决通过目标配置来规范控制、机器人和规划的任务，此策略运用Deep Sets和Self Attention等结构，在模拟机器人操作任务的训练中，成功率更高且泛化能力更强。

Mar, 2022

CompoSuite：一款组合强化学习基准测试工具

本文介绍CompoSuite，一个开源的模拟机器人操作基准测试，用于对复合多任务强化学习进行基准测试，评估现有单任务、多任务和组合学习算法在不同训练设置下的能力，并评估它们对未见任务的组成归纳能力，以此暴露现有RL方法在组合性方面存在的缺陷及问题。

Jul, 2022

Polybot：在接纳变异性的同时，为多个机器人训练一个策略

通过重新使用大型数据集，提出在多个机器人平台上训练单一策略的关键设计决策，通过对视觉和动作空间的对齐以及对内部表示的对齐来解决机器人平台之间的领域差异，验证了该方法在不同机器人上收集的新任务数据中成功率和样本效率的显著提升。

Jul, 2023

用于离线组合强化学习的机器人操作数据集

本研究提供了四个来自CompoSuite的离线强化学习数据集，用于解决机器人操作的组合任务，评估表明组合方法比非组合方法优越，但当前方法仍无法提取任务的组合结构以推广到看不见的任务，需要进一步研究。

Jul, 2023

机器人操控的语义增强和动作分块的泛化和效率

通过语义增强和行为表征，我们开发了一个高效的系统（RoboAgent）来训练具备多任务操作技能的通用智能体，使用少量多样的多模态数据集，能够展示不同的技能并在新颖的场景中表现出很好的泛化性能。

Sep, 2023

通过组合泛化实现机器人操作的高效数据收集

通过大规模机器人数据收集，研究表明，在考虑环境因素的情况下利用组合性训练数据，可以更好地提高机器人政策的泛化能力，从而避免收集针对特定情况的数据。

Mar, 2024

Octo：一个开源的全能机器人策略

通过预训练泛化策略，本研究试图为机器人操控领域开发广泛适用的开源泛化策略，首次推出 Octo，一个基于大型变换器模型的策略，可通过语言指令或目标图像进行训练，并能够在几小时内在标准消费者 GPU 上对新传感输入和行为空间进行有效微调，这为未来建立泛化机器人模型的研究提供了有价值的经验指导。

May, 2024

利用异质预训练变换器扩展自我感知与视觉学习

本研究解决了当前机器人模型训练中的异质性问题，通过在不同的机器人数据和任务上进行异质预训练，提出了一种新的Heterogeneous Pre-trained Transformers (HPT)架构。该方法有效对齐了不同机器人身体姿态的输入，从而在多个任务中显著提高了策略的表现，尤其是在未见任务上的效率超过20%。

Sep, 2024