ICMLMay, 2019

最大熵正则化的多目标强化学习

TL;DR通过加权熵的方法构建的一个新的多目标强化学习优化目标,同时配合最大熵法优化,通过比较 OpenAI Gym 的多目标机器人任务与其他基线实验,证实了该方法在性能和样本效率方面具有显著的改进。