Feb, 2023

蒸馏策略优化

TL;DR本文提出了一种基于演员 - 评论家学习框架的算法,通过借用感兴趣的分布式视角来评估和混合两个数据源以促进快速学习,并且采用方差约减机制和学习基线以稳定策略梯度的方法,从根本上改进了样本效率和可插值性。