May, 2024

线性函数逼近作为计算有效的经典强化学习挑战解决方法

TL;DR基于神经网络的价值函数的近似是领先的基于策略的方法(如 Trust Regional Policy Optimization (TRPO) 和 Proximal Policy Optimization (PPO))的核心。然而,在状态空间和行动空间较低的环境中,计算复杂的神经网络架构与简单的价值函数近似方法相比,提供的改进幅度较小。本文提出了基于自然策略梯度方法的自然演员 - 评论员算法实现,并认为在这些环境中,以线性函数近似为范例的自然策略梯度方法可能超过 TRPO 和 PPO 等基于神经网络的模型的性能和速度。我们观察到,在强化学习基准 Cart Pole 和 Acrobot 上,我们的算法训练速度比复杂的神经网络架构快得多,并获得相等或更好的结果。这使我们能够推荐在传统和稀疏奖励低维问题中使用以线性函数近似为范例的自然策略梯度方法,而不是 TRPO 和 PPO。