Oct, 2024

缓解复杂Q函数中确定性策略梯度的次优性

TL;DR本研究针对强化学习中确定性策略梯度方法(如DDPG和TD3)在复杂任务中的局部最优问题,提出了一种新型演员架构。通过使用多个演员和更易于优化的Q函数替代品,该架构能够更频繁地找到最优动作,并在多项任务中表现优于其他演员架构。