Aug, 2023

隐式多任务强化学习问题的政策调整方法

TL;DR在动态运动生成任务中,微小的策略参数变化可能导致完全不同的结果。本研究提出了一种多任务强化学习算法,用于适应单一运动类别中目标或环境的隐式变化,通过不同的奖励函数或物理环境参数。使用单脚机器人模型对球的头球任务进行了评估,结果表明该方法能够适应目标位置或球的恢复系数的隐式变化,而标准的领域随机化方法无法适应不同的任务设置。