Oct, 2024

引导强化学习用于鲁棒的多接触运动操控

TL;DR本研究解决了强化学习中每个任务需精心设计马尔可夫决策过程的难题,提出了一种系统的方法进行多接触运动操控任务的行为合成与控制。通过定义任务无关的马尔可夫决策过程,我们的策略能够在动态不确定性和外部干扰下,学习到更高成功率的操控策略,并在真实机器人上成功转化,展示了其实用性。