May, 2022

具有自适应分层课程的多阶段多目标手指灵巧操纵

TL;DR本研究提出了一种新的自适应分层奖励机制 (AHRM),可以解决机器人在学习掌握多目标任务时,具有多个目标且优先级可能在不同阶段发生变化的情况下,无法以深度强化学习方法学习最佳策略的问题。实验结果表明,所提出的方法在多目标操作任务的 JACO 机械臂中能够提高机器人的学习效率和任务性能。