Feb, 2023

通过奖励塑造在基于情节的强化学习中利用多重抽象

TL;DR研究提出了一种基于奖励设计的强化学习算法,通过使用层次结构的抽象模型,将抽象层级中的解决方案用于指导更复杂领域的学习,从而提高了学习效率且具有实际应用价值。