Jun, 2023

通用效用的强化学习:更简单的方差缩减和大状态行动空间

TL;DR我们提出了一种更简单的单循环,无参数归一化策略梯度算法,用于解决具有一般效用的强化学习问题,其中包括约束强化学习,纯探索以及从演示中学习等问题,同时通过线性函数逼近解决大状态-动作空间的设置,并展示了简单的策略梯度法的样本复杂度。