物理知识引导神经网络的强化学习: Hamilton-Jacobi-Bellman 近端策略优化（HJBPPO）

Feb, 2023

物理知识引导神经网络的强化学习: Hamilton-Jacobi-Bellman 近端策略优化（HJBPPO）

Bridging Physics-Informed Neural Networks with Reinforcement Learning: Hamilton-Jacobi-Bellman Proximal Policy Optimization (HJBPPO)

PDF

Amartya Mukherjee, Jun Liu

TL;DR本文介绍了将 Hamilton-Jacobi-Bellman Proximal Policy Optimization（HJBPPO）算法引入强化学习中，使用 Hamilton-Jacobi-Bellman（HJB）方程在连续状态和动作空间中评估价值函数的最优性，将价值网络视为物理学知识神经网络（PINN）来计算其输入的导数，将其实现到 Proximal Policy Optimization（PPO）Clipped 算法中，证明 HJBPPO 算法相比 PPO 算法在 MuJoCo 环境有更好的性能表现。

Abstract

This paper introduces the Hamilton-Jacobi-Bellman Proximal Policy Optimization (HJBPPO) algorithm into reinforcement learning. The Hamilton-Jacobi-Bellman (HJB) equation is used in control theory to evaluate the optimality of the value function. Our work combines the HJB equation with

hamilton-jacobi-bellman proximal policy optimization reinforcement learning hamilton-jacobi-bellman equation value network physics-informed neural network

发现论文，激发创造

基于 Hamilton-Jacobi 的深度算子学习的策略迭代

本论文将深度算子网络（DeepONet）框架与最近发展的策略迭代方案相结合，以数值方式解决最优控制问题和相应的 Hamilton-Jacobi-Bellman（HJB）方程，在不同终端函数情况下通过算子学习的独特特性快速推断出解；通过粘性解的比较原理定量分析了算法的准确性，并通过包括 10 维线性二次调节器问题（LQRs）在内的各种示例验证了该方法的有效性。

Jun, 2024

Koopman 辅助强化学习

基于 Koopman 算子和马尔可夫决策过程（MDPs）的连接，发展了两种新的强化学习算法，以解决高维状态和非线性问题，构建了 “Koopman tensor” 来估计最优价值函数，通过 Koopman 张量对 Bellman 框架进行了转换，形成软值迭代和软演员 - 评论家（SAC）算法。

Mar, 2024

基于路径 HJB 操作符的随机系统的神经最优控制器

基于物理知识学习和动态规划，该研究旨在开发基于深度学习的算法来解决高维随机控制问题；通过引入与 Hamilton-Jacobi-Bellman 方程相关的路径操作，定义了一个物理知识学习问题，并提出了两种数值方法来求解该问题。研究对截断误差，逼近误差和优化误差对这些方法的准确性的影响进行了错误分析，并提供了各种应用的数值结果来说明所提算法的性能。

Feb, 2024

线性马尔可夫决策过程中乐观近端策略优化的理论分析

本研究针对增强学习领域中的近端政策优化（PPO）算法，在线性马尔科夫决策过程中引入乐观变体，提出了一种新的多批次更新机制，使用价值和策略类的新覆盖数论算法进行优化和分析，成果在随机线性马尔可夫决策过程和完全信息对抗性线性马尔可夫决策过程中取得了最先进的成果。在对强化学习领域的理解和改进方面具有重要意义。

May, 2023

使用物理信息神经网络的演员 - 评论家方法：控制流体冷却电池组的 1D PDE 模型

本文提出了一种基于演员 - 评论家算法的控制电池组温度的方法，使用冷却流体模型对其进行建模，并使用物理知识神经网络解决了 HJB 方程，通过最优化方式实现对控制问题的最优控制

May, 2023

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019

关于 Lipschitz 连续控制问题的稳定性及其在强化学习中的应用

我们研究了模型无关的强化学习环境下 Hamilton-Jacobi-Bellman 方程的稳定性属性，特别是对于 Lipschitz 连续最优控制问题。通过在动力学和奖励函数中引入结构假设，我们进一步研究了值函数的收敛速度。此外，我们引入了一个广义框架，用于处理包含原始问题的 Lipschitz 连续控制问题，并基于此提出了一种新的基于 HJB 的强化学习算法。通过与现有方法的比较，我们测试了所提方法的稳定性和性能，并使用众所周知的基准示例进行了验证。

Apr, 2024

具有状态约束的两人对称差分博弈的价值逼近

使用三种方法解决了物理信息机器学习方法在机器人应用中由于采样性质而产生的不连续解的问题，并在 5D、9D 车辆模拟和 13D 无人机模拟中证明了混合方法在泛化和安全性能方面的优越性。

Nov, 2023

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020

回归基础：重新评估 LLMs 中学习人类反馈的 REINFORCE 样式优化

通过改进 Proximal Policy Optimization，使用 REINFORCE-style optimization 的方法在低成本情况下实现在线强化学习优化，从而提高 AI 对人类反馈的 RLHF 的性能。

Feb, 2024