Feb, 2023

物理知识引导神经网络的强化学习: Hamilton-Jacobi-Bellman 近端策略优化(HJBPPO)

TL;DR本文介绍了将 Hamilton-Jacobi-Bellman Proximal Policy Optimization(HJBPPO)算法引入强化学习中,使用 Hamilton-Jacobi-Bellman(HJB)方程在连续状态和动作空间中评估价值函数的最优性,将价值网络视为物理学知识神经网络(PINN)来计算其输入的导数,将其实现到 Proximal Policy Optimization(PPO)Clipped 算法中,证明 HJBPPO 算法相比 PPO 算法在 MuJoCo 环境有更好的性能表现。