基于路径 HJB 操作符的随机系统的神经最优控制器

Feb, 2024

基于路径 HJB 操作符的随机系统的神经最优控制器

Neural optimal controller for stochastic systems via pathwise HJB operator

Zhe Jiao, Xiaoyan Luo, Xinlei Yi

TL;DR基于物理知识学习和动态规划，该研究旨在开发基于深度学习的算法来解决高维随机控制问题；通过引入与 Hamilton-Jacobi-Bellman 方程相关的路径操作，定义了一个物理知识学习问题，并提出了两种数值方法来求解该问题。研究对截断误差，逼近误差和优化误差对这些方法的准确性的影响进行了错误分析，并提供了各种应用的数值结果来说明所提算法的性能。

Abstract

The aim of this work is to develop deep learning-based algorithms for high-dimensional stochastic control problems based on physics-informed lear

deep learning stochastic control problems physics-informed learning hamilton--jacobi--bellman equation numerical methods

发现论文，激发创造

基于 Hamilton-Jacobi 的深度算子学习的策略迭代

本论文将深度算子网络（DeepONet）框架与最近发展的策略迭代方案相结合，以数值方式解决最优控制问题和相应的 Hamilton-Jacobi-Bellman（HJB）方程，在不同终端函数情况下通过算子学习的独特特性快速推断出解；通过粘性解的比较原理定量分析了算法的准确性，并通过包括 10 维线性二次调节器问题（LQRs）在内的各种示例验证了该方法的有效性。

Jun, 2024

关于 Lipschitz 连续控制问题的稳定性及其在强化学习中的应用

我们研究了模型无关的强化学习环境下 Hamilton-Jacobi-Bellman 方程的稳定性属性，特别是对于 Lipschitz 连续最优控制问题。通过在动力学和奖励函数中引入结构假设，我们进一步研究了值函数的收敛速度。此外，我们引入了一个广义框架，用于处理包含原始问题的 Lipschitz 连续控制问题，并基于此提出了一种新的基于 HJB 的强化学习算法。通过与现有方法的比较，我们测试了所提方法的稳定性和性能，并使用众所周知的基准示例进行了验证。

Apr, 2024

物理知识引导神经网络的强化学习: Hamilton-Jacobi-Bellman 近端策略优化（HJBPPO）

本文介绍了将 Hamilton-Jacobi-Bellman Proximal Policy Optimization（HJBPPO）算法引入强化学习中，使用 Hamilton-Jacobi-Bellman（HJB）方程在连续状态和动作空间中评估价值函数的最优性，将价值网络视为物理学知识神经网络（PINN）来计算其输入的导数，将其实现到 Proximal Policy Optimization（PPO）Clipped 算法中，证明 HJBPPO 算法相比 PPO 算法在 MuJoCo 环境有更好的性能表现。

Feb, 2023

霍奇金 - 休克利神经元动力学的学习控制策略

通过神经网络方法实现闭环深度脑刺激 (DBS)。以找到最佳神经刺激策略为目标，将问题转化为控制问题。我们通过离线使用神经网络近似价值函数，结合 Pontryagin 的最大值原理和 Hamilton-Jacobi-Bellman 方程更新值函数估计，实时依据患者的神经活动调整 DBS 系统参数，从而优化治疗效果。

Nov, 2023

限制随机微分方程的确定性粒子流

本篇论文介绍了一种在求数值解过程中随机采样和网格方法之间插值的新型完全确定性框架，它在用对数梯度（分数）计算二个向前概率流的基础上，利用确定性粒子方法求解 Fokker-Planck 方程，计算所需的最佳干预。

Oct, 2021

具有状态约束的两人对称差分博弈的价值逼近

使用三种方法解决了物理信息机器学习方法在机器人应用中由于采样性质而产生的不连续解的问题，并在 5D、9D 车辆模拟和 13D 无人机模拟中证明了混合方法在泛化和安全性能方面的优越性。

Nov, 2023

使用物理信息神经网络的演员 - 评论家方法：控制流体冷却电池组的 1D PDE 模型

本文提出了一种基于演员 - 评论家算法的控制电池组温度的方法，使用冷却流体模型对其进行建模，并使用物理知识神经网络解决了 HJB 方程，通过最优化方式实现对控制问题的最优控制

May, 2023

使用前向 - 后向 SDE 学习深度随机最优控制策略

本文提出了一种基于非线性随机最优控制理论、应用数学和机器学习的不确定性决策制定新方法。我们开展了一项控制框架的研究，旨在解决机器人和自主决策问题中的不确定性，并提出了一种深度神经网络架构用于随机控制。在仿真非线性系统中，我们研究了所提算法的性能和可扩展性，并讨论了未来的研究方向及其对机器人技术的影响。

Feb, 2019

随机控制问题的深度学习逼近

通过蒙特卡洛采样的深度学习方法，将高维随机控制问题的时间依赖控制近似为前馈神经网络，用作控制问题的目标函数，经测试，该方法可以处理高维度问题并且具有令人满意的准确性。

Nov, 2016

基于神经网络的机会控制远程无人机在线路径规划

该论文提出了一种名为 oHJB 的神经网络辅助远程无人机在线控制算法，通过解决 HJB 方程，该算法能够实时产生最佳控制动作，从而减少了无人机的行程时间和能量消耗。

Oct, 2019