Jun, 2022

具有理论支持的样本重用的广义政策改进算法

TL;DR该研究提出了一类广义政策提升算法,将在线算法和离线算法相结合,在保证策略改进的同时,实现了高效数据复用,为深度强化学习的实际应用提供了可行性。