Aug, 2022

PD-MORL: 基于偏好的多目标强化学习算法

TL;DR本研究提出了一种新型的多目标强化学习算法 PD-MORL,该算法利用偏好作为指导来更新网络参数,并采用一种新的并行化方法来提高采样效率,可覆盖整个偏好空间,适用于连续机器人任务的可伸缩性更强,相较于以往方法具有更高曲线下面积并且可训练参数量更少。