Jun, 2023

多个黑箱神谕的活跃政策改进

TL;DR介绍了一类名为 MAPS 和 MAPS-SE 的策略改进算法,旨在通过多个次优专家的模仿学习来提高政策效果,并表现出比最先进的策略改进算法更高的样本效率优势。