Feb, 2023
物理知识引导神经网络的强化学习: Hamilton-Jacobi-Bellman 近端策略优化(HJBPPO)
Bridging Physics-Informed Neural Networks with Reinforcement Learning: Hamilton-Jacobi-Bellman Proximal Policy Optimization (HJBPPO)
Amartya Mukherjee, Jun Liu
TL;DR本文介绍了将 Hamilton-Jacobi-Bellman Proximal Policy Optimization(HJBPPO)算法引入强化学习中,使用 Hamilton-Jacobi-Bellman(HJB)方程在连续状态和动作空间中评估价值函数的最优性,将价值网络视为物理学知识神经网络(PINN)来计算其输入的导数,将其实现到 Proximal Policy Optimization(PPO)Clipped 算法中,证明 HJBPPO 算法相比 PPO 算法在 MuJoCo 环境有更好的性能表现。