May, 2024

用随机策略梯度学习最优确定性策略

TL;DR通过比较基于动作和基于参数的探索,本论文介绍了一种理论框架以及对全局收敛性的研究,用于理解强化学习中连续问题的策略梯度方法,可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。