May, 2020

多目标策略优化的分布式视角

TL;DR本文提出了一种用于多目标强化学习的新算法,可以以一种无量纲的方式设置目标的偏好,并且通过学习行动分布和拟合参数策略来在高维实际机器人任务及模拟任务中展示了其有效性,从而找到一组非支配解空间。