- 通用流程作为可扩展机器人学习的基础支持
提出了一种基于预测流的机器人学习方法,能够实现在现实场景中稳定且高效的技能转移,涵盖了现实环境中的多个目标类别,通过利用大规模数据集实现了可扩展的普适机器人学习。
- DiffClone: 强化行为克隆机器人中的扩散驱动策略学习
本文介绍了一种使用离线演示数据集进行训练的增强行为克隆代理的离线算法 DiffClone,并在真实在线物理机器人上测试了该方法的有效性。
- 机器人学习在流形上的非参数回归
本研究提出了一种在机器人学习中处理非欧几里德流形数值数据的本质方法,该方法通过在流形上选择适当的概率分布,并将其参数作为预测变量的函数进行非参数化估计,同时结合核函数的局部似然方法,实现了比投影算法更好的预测准确性。
- 基于模型的实时监控与交互式模仿学习
通过模型学习和故障检测机制,该论文提出了一种基于互动模仿学习的机器人监控算法,能够实时监测任务执行过程中的失败,并预测可能发生的故障,从而提高任务可靠性。
- 如何通过示范高效地教导机器人?
通过使用信息熵作为准则,建议教师给出更具信息量的示范样例,从而提高机器人学习效率。使用增强现实引导系统对初学者进行训练,从熵最高的区域产生额外的示范,并在同一任务(保留)和新任务(转移)上测试性能,结果发现机器人的学习效率大幅提高,与启发式 - 通过隐式图对齐进行少样本上下文内模仿学习
通过将模仿学习作为对象图表示之间条件对齐问题来解决机器人在新对象上学习任务的困难,使得机器人能够在示范之后立即在一组新对象上执行任务,无需先验知识或进一步训练。
- 自监督任务推断的连续机器人学习
我们提出了一种自我监督任务推理方法,通过观察到的未标记演示的运动和效果部分的自组织以及联合动作 - 意图嵌入的自组织学习,学习行动和意图嵌入,并构建了一个行为匹配的自我监督学习目标来训练一个新型的任务推理网络,该网络将未标记演示映射到其最近 - Diffusion-EDFs: SE (3) 上的双等变去噪生成建模,用于视觉机器人操作
本文介绍了 Diffusion-EDFs,一种新颖的方法,将 SE (3)- 等变性(roto-translation equivariance)引入扩散生成模型中,展示出了卓越的数据效率,只需要 5 至 10 个任务演示进行有效的端到端训 - 探索机器人操纵的视觉预训练:数据集、模型与方法
基于大规模真实世界数据的视觉预训练在最近几年取得了很大的进展,展示了在像素观察中进行机器人学习的巨大潜力。本文从三个基本角度(预训练数据集、模型架构和训练方法)深入研究了视觉预训练策略对机器人操作任务的影响,并提供了几个重要的实验发现,有益 - 基于机器人的 POMDP 的贝叶斯强化学习
该论文提出了一个面向物理系统的专门框架,利用 Bayesian reinforcement learning(BRL)和专家知识对机器人的学习进行优化,实现了在人机交互任务中的快速学习和处理环境中的不确定性。
- XSkill:跨体现技能发现
在这篇论文中,介绍了一种名为 XSkill 的模仿学习框架,通过从未标记的人类和机器人操纵视频中发现一种跨体现性表示,使用条件扩散策略将该表示转移到机器人行为,并通过组合学习到的技能完成由人类提示视频指定的未见任务,进而解决了直接从非结构化 - 反馈即所需:基于近似物理模型的真实世界强化学习
本文提出了一种基于策略梯度的策略优化框架,可以通过可能高度简化的一阶模型对实际数据进行监督学习,从而设计出精确的控制策略。
- WWWAR2-D2 无需实体机器人训练机器人
AR2-D2 是一种不需要经过专门训练的人,也不需要在数据采集期间使用真实机器人的演示数据收集系统,可用于训练真实机器人的行为克隆代理,并且与真实机器人演示数据训练同样有效。
- 最小化人力成本的演示学习框架
本文探讨了机器人学习中的共享自治问题,提出了一种基于多臂赌博机算法的控制器选择方法,并通过模拟和实现任务验证了该方法降低了人类成本。
- 评估家用机器人上的持续学习
本文提出了使用连续学习方法在低成本家用机器人上学习技能的方法,并使用 Attention-Based Interaction Policies 作为支撑,仅使用每个任务的少量示例即可完成学习。
- 线下训练,线上测试:一个真实机器人学习基准测试
通过新的基准测试 TOTO 挑战机器人学习研究中的三个限制:昂贵的机器人硬件限制了研究范围,各人使用不同的机器人导致结果不能推广到其他实验室,以及缺乏互联网规模的机器人数据。TOTO 为用户提供访问共享机器人硬件和任务数据集的机会,以进行任 - 质量多样性强化学习的近端策略梯度树形结构
本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人,PPGA 算法在人形机器人领域实现了 4 倍的改进。
- 对比语言、动作和状态预训练用于机器人学习
本文介绍了一种名为 Contrastive Language, Action, and State Pre-training (CLASP) 的方法,采用分布式输出使文本命令和行为单元之间的对齐变得更加准确,从而帮助了解决机器人学习中的相关 - ICLRSoftZoo: 一个软体机器人共设计基准,用于在多样化环境中进行运动
SoftZoo 是一个理解软体机器人内在设计和性能权衡的全面虚拟平台,支持多种环境和任务,提供不同 iable 的设计表示和协同设计算法的基准测试,可用于开发和设计软体机器人的行为和形态智能。
- 使用预训练视觉语言模型进行开放世界物体操作
通过使用预训练的视觉 - 语言模型,开发了一种简单的方法 Manipulation of Open-World Objects (MOO) 来从自然语言命令和图像中提取目标标识信息,并将机器人策略基于当前图像、指令和提取的对象信息。在一个真