Nov, 2017

基因蒸馏的政策优化

TL;DR本文提出一种新的基因算法,名为遗传策略优化(GPO),用于样本有效的深度策略优化,通过状态空间中的模仿学习进行策略交叉并应用策略梯度方法进行变异,实验结果表明,GPO 优于现有的策略梯度方法,并实现了相当或更高的样本效率。