AAAIFeb, 2023
通过奖励塑造在基于情节的强化学习中利用多重抽象
Exploiting Multiple Abstractions in Episodic RL via Reward Shaping
Roberto Cipollone, Giuseppe De Giacomo, Marco Favorito, Luca Iocchi, Fabio Patrizi
TL;DR研究提出了一种基于奖励设计的强化学习算法,通过使用层次结构的抽象模型,将抽象层级中的解决方案用于指导更复杂领域的学习,从而提高了学习效率且具有实际应用价值。