使用示范加速强化学习和规划:一项调查
本文提出了一种利用展示学习技术来解决高维度控制问题的机器人强化学习方法。该方法基于 Deep Deterministic Policy Gradient 算法,通过人体运动学控制收集演示并不需要专门设计的奖励函数,可应用于插入操作等实际机器操作中。
Jul, 2017
本研究利用示范来解决强化学习中稀疏奖励的探索问题,成功地学习了长期、多步骤的机器人任务,方法使用了DDPG和HER算法,提供了一种在仿真机器人任务上比以往RL算法快一个数量级的加速,方法易于实现,能够解决在行为克隆和RL算法中 都无法解决的任务,并且往往表现优于示范策略。
Sep, 2017
该研究提出了一种基于机器教学的逆强化学习方法,利用最小数量的演示数据来学习策略并提高泛化性能。同时,还发展了一个新的学习方法,在一些应用中可以从信息丰富的演示数据中更加高效地学习到奖励函数。
May, 2018
研究学习者和专家在视角不一致的情况下,利用逆强化学习算法从专家演示数据中学习近似最优策略的方法。并引入了“教学风险”概念,衡量在这种情况下,学习者需要付出的非最优代价,提出了专家可以通过更新学习者的视角,降低教学风险的教学方案。
Oct, 2018
本文提出了一种基于示教引导的强化学习方法,该方法通过提取任务中共享的子任务结构,从而显著提高学习效率,并且在迷宫导航和复杂机器人操纵任务上进行了验证。
Jul, 2021
研究人机交互中智能机器人的学习奖励功能从而完成任务,探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能,包括两两比较、评分、最佳选择等,并提出主动学习技术,以优化从用户反馈中获得的期望信息,进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。
Oct, 2022
该研究使用深度强化学习通过单个演示来学习控制复杂机器人任务的目标条件策略,并提出 DCIL-II 算法以解决连续目标之间的兼容性问题,并在仿真环境中展示了前所未有的样本效率。
Nov, 2022
提出了EARLY (Episodic Active Learning from demonstration querY)算法,通过在基于轨迹的特征空间中生成优化的专家演示查询,改善了学习过程中的人类教学体验和学习性能。在三个逐渐增加的导航任务中验证了方法的有效性,结果表明,当演示由模拟的专家策略生成时,我们的方法在所有三个任务中达到了专家水平的性能,收敛速度比其他基准方法快30%以上。随后的用户研究结果证实,在人类专家演示者的情况下,我们的方法仍然可以保持显著更好的收敛性能,同时在任务负荷感知和消耗的人类时间方面实现了更好的用户体验。
Jun, 2024