Sep, 2019

元强化学习在模拟到真实领域适应中的应用

TL;DR本论文提出了一种基于元学习的方法,在使用任务特定轨迹生成模型提供动作空间以便快速探索的同时,训练机器人智能体以适应各种动态条件,以解决现代强化学习方法低样本效率和不安全探索的问题。我们通过在仿真环境中进行域适应并分析适应过程中潜在空间的结构来评估该方法。然后,在 KUKA LBR 4 + 机器人上应用此策略,并在将曲棍球击向目标的任务中评估其性能。实验结果表明,与基准表现相比,这种方法具有更一致和稳定的域适应性,从而获得了更好的整体性能。