本文提出了利用动态循环 (Dynamics Cycles) 的方法,通过在两个不同的领域中学习关联来解决机器人学习中的问题,包括模仿学习、模拟到真实世界的迁移学习和不同机器人环境之间的转移学习。该方法可以通过使用来自两个不同领域的非配对和随机收集的数据,对代表 (视觉 / 内部状态)、物理参数 (质量 / 摩擦力) 和形态 (肢体数量) 不同的两个领域进行对齐,最终在不需要任何额外的微调的情况下将一个领域的策略直接转移至另一个领域。
Dec, 2020
通过对现有跨域策略转移方法进行系统审查,我们对每个问题设置的总体见解和设计考虑进行了细致的分类,并对跨域策略转移问题中使用的关键方法进行了高层次讨论。最后,我们总结了当前范式能力之外的开放挑战,并讨论了该领域可能的未来发展方向。
Feb, 2024
本研究提出了一种基于域随机化的控制策略迁移方法,通过同时学习多种不同行为的控制策略来应对目标环境与训练环境之间的差异,而无需对动态参数进行识别,实验表明该方法可以成功地解决模型误差较大的情况。
Oct, 2018
通过观察映射和行为克隆,本文提出了一个针对两个领域的少样本策略传递框架,利用生成对抗网络(GANs)和循环一致性损失将源领域和目标领域之间的观察映射,并将获取的映射用于将成功的源任务行为策略克隆到目标领域,进而实现有限目标任务交互情况下和源领域与目标领域在语义上不相似的情况下的成功行为策略传递。
Oct, 2023
本文的研究重点是在具有不同形态的机器人操纵器之间传递控制策略。通过将源机器人和目标机器人的状态和动作空间投影到一个共同的潜在空间来实现跨机器人的策略转移。我们使用编码器、解码器和潜在空间控制策略同时进行训练,利用任务表现、潜在动力学一致性和编码器 - 解码器能力来重构原始状态和动作。为了转移学得的控制策略,我们只需要训练目标编码器和解码器来将新的目标领域对齐到潜在空间。我们使用生成对抗训练,通过循环一致性和潜在动力学损失,在目标领域中无需访问任务奖励或奖励调整,展示了模拟环境到真实环境以及不同状态、动作和形态的机器人之间的策略转移。
Jun, 2024
提出了一个名为 TvD 的框架,通过分布匹配实现智能体在交互域之间的知识转移,其基于优化目标推导出了一种新的策略更新机制,该机制可以有效地解决任务差异性的影响。
Nov, 2022
通过开发半监督对齐损失来匹配不同空间的一组编码器 - 解码器,本研究研究了如何衡量跨领域强化学习任务之间的相似性,以选择能够提高学习代理性能的知识源。实验结果表明,在各种 Mujoco 控制任务中,我们的方法能够有效地选择和传递知识,而无需与专家策略相匹配、配对或收集数据的监督。
Dec, 2023
通过解决源模拟和目标环境之间的动力学差异问题,提出一种简单但有效的方法,通过偏向和扩展源支持以减轻支持缺陷,以适应大的动力学差异,从而在目标领域中制定出有效的策略。
通过重新使用大型数据集,提出在多个机器人平台上训练单一策略的关键设计决策,通过对视觉和动作空间的对齐以及对内部表示的对齐来解决机器人平台之间的领域差异,验证了该方法在不同机器人上收集的新任务数据中成功率和样本效率的显著提升。
Jul, 2023
本研究主要关注在强化学习中存在动力学不匹配的问题,提出了一种基于解耦表示学习的方法,通过在目标领域中进行表示学习并测量与源领域的过渡的表示差异,将表示差异作为奖励惩罚项,该方法在具有运动学和形态学不匹配的环境中表现出良好的性能。
May, 2024