Mar, 2023

政策镜像下降算法固有地探索动作空间

TL;DR本文所提出的新算法不依赖于探索策略,通过引入两个新的基于策略的评估算符和对SPMD算法的新颖分析,实现了在线策略梯度方法的样本复杂度的近似上界,无需显式探索,可以避免在寻找最优策略时反复执行潜在的高风险动作,具有更强的收敛性能。