ICMLJun, 2023
通用效用的强化学习:更简单的方差缩减和大状态行动空间
Reinforcement Learning with General Utilities: Simpler Variance Reduction and Large State-Action Space
Anas Barakat, Ilyas Fatkhullin, Niao He
TL;DR我们提出了一种更简单的单循环,无参数归一化策略梯度算法,用于解决具有一般效用的强化学习问题,其中包括约束强化学习,纯探索以及从演示中学习等问题,同时通过线性函数逼近解决大状态 - 动作空间的设置,并展示了简单的策略梯度法的样本复杂度。