Oct, 2021

具有样本重用的广义近端策略优化

TL;DR研究利用理论达到策略提升保证的同时,结合较高的数据效率进行决策,通过广义的近端优化,基于样本的有效复用,实现了稳定性和样本效率之间的有效平衡,从而在表现上有了提高。