ICMLJul, 2020

长时间多目标强化学习的最大熵增益探索

TL;DR本文探讨了当测试目标分布过于远离时,多目标强化学习应当追求怎样的目标,提出了优化历史完成目标分布熵的内在目标,通过在目标空间中极少被探索区域内的历史完成目标的追求实现探索,成功提高了长期目标任务中的数据利用效率。