相互对齐迁移学习
本研究使用一种修改自然策略梯度算法的模型,通过模拟学习并训练,成功将自主控制策略从虚拟系统转移到由三个机器人组成的物理系统中,并证明使用多个模型训练可以使学习到的策略更加稳健,从而弥补了系统识别的困难。
Mar, 2018
本篇综述涵盖了深度强化学习中模拟转真实环境的基本背景,包括不同方向的方法和应用场景,重点讨论了域随机化、域自适应、模仿学习、元学习和知识蒸馏等方法及其存在的机遇和挑战。
Sep, 2020
本文提出了一个基于深度强化学习的机器人 pick-and-place 任务的共识型模拟现实联合训练算法(CSAR),目的是在模拟和实际环境中都实现高效和有效的策略优化。实验表明,模拟中的最佳策略并不一定适用于模拟和实际环境的学习。同时,越多的模拟代理越有利于模拟现实的训练。
Feb, 2023
本文介绍了一种简单的方法来解决在模拟训练中的现实差距问题。通过在训练过程中随机化模拟器的动力学,我们能够开发出适应非常不同的动力学的策略,并且使其在真实世界中推广而不需要在物理系统上进行训练。在机器人控制方面,我们的方法在物体推动任务上表现出了很好的性能。
Oct, 2017
通过模拟环境构建数字双子,提出了一种通过强化学习来增强真实世界模仿学习策略的系统 RialTo,实现高性能、鲁棒性的策略的学习,同时避免大量不安全的真实数据收集和大量人工监督。
Mar, 2024
本论文提出了一种基于元学习的方法,在使用任务特定轨迹生成模型提供动作空间以便快速探索的同时,训练机器人智能体以适应各种动态条件,以解决现代强化学习方法低样本效率和不安全探索的问题。我们通过在仿真环境中进行域适应并分析适应过程中潜在空间的结构来评估该方法。然后,在 KUKA LBR 4 + 机器人上应用此策略,并在将曲棍球击向目标的任务中评估其性能。实验结果表明,与基准表现相比,这种方法具有更一致和稳定的域适应性,从而获得了更好的整体性能。
Sep, 2019
本文研究应用 Imitation Learning 和 transfer learning 方法解决 Duckietown 场景下的机器人车道跟踪问题,并通过 sim-to-real 方法进行实际环境迁移,最终比较了三种 Imitation Learning 方法和两种 sim-to-real 方法的优缺点。
Jun, 2022
提出了使用 Reverse Action Transformation(RAT)策略的方法来解决模拟到现实世界之间的转换问题,并且和其他基线模型相比,在连续控制任务中可实现零样本适应。
Feb, 2023
本研究使用深度强化学习的 actor-critic 算法,利用物理模拟器的完全状态可观测性,针对机器人操作中的部分观测(RGBD 图像)的问题进行训练,通过使用不对称输入来显著提高性能,并使用领域随机化的方法,实现了在没有真实世界数据的情况下,在真实机器人上进行的模拟到真实世界的转移。
Oct, 2017