Jan, 2022

零阶演员 - 评论家

TL;DR提出了一种新的零阶演员评论家算法(ZOAC),将进化型的零阶优化方法和基于政策梯度的一阶方法统一到一个政策演员结构中,解决了两种算法的缺陷,获得了更高的样本效率和更强的鲁棒性。