AAAIDec, 2022

熵正则化强化学习中利用之前的奖励塑形和组合方案

TL;DR本文提出了一种针对熵正则化强化学习中的奖励塑形和任务组合的方法,可以利用先前的解决方案帮助智能体快速解决新问题并加快学习速度。