Dec, 2020

自我模仿优势学习

TL;DR该论文提出了一种新的基于 Bellman 最优算子的自我模仿学习方法,可以在离线强化学习中应用于 hard exploration games,以提高性能。