Jun, 2022
具有理论支持的样本重用的广义政策改进算法
Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse
James Queeney, Ioannis Ch. Paschalidis, Christos G. Cassandras
TL;DR该研究提出了一类广义政策提升算法,将在线算法和离线算法相结合,在保证策略改进的同时,实现了高效数据复用,为深度强化学习的实际应用提供了可行性。