具有状态约束的两人对称差分博弈的价值逼近

Nov, 2023

具有状态约束的两人对称差分博弈的价值逼近

Value Approximation for Two-Player General-Sum Differential Games with State Constraints

Lei Zhang, Mukesh Ghimire, Wenlong Zhang, Zhe Xu, Yi Ren

TL;DR使用三种方法解决了物理信息机器学习方法在机器人应用中由于采样性质而产生的不连续解的问题，并在 5D、9D 车辆模拟和 13D 无人机模拟中证明了混合方法在泛化和安全性能方面的优越性。

Abstract

Solving hamilton-jacobi-isaacs (HJI) PDEs enables equilibrial feedback control in two-player differential games, yet faces the curse of dimensionality (CoD). While physics-informed machine learning has been adopt

hamilton-jacobi-isaacs equilibrial feedback control curse of dimensionality discontinuous solutions robotics applications

发现论文，激发创造

用 Pontryagin 神经算子解决参数化广义和微分博弈

通过引入在前向和后向态演化之间的差异上定义的共态损失，该论文提出了一种 Pontryagin 模式神经运算符，用于处理具有参数状态约束的游戏，该方法在安全性能方面优于现有技术，且无需手动监督数据。

Jan, 2024

我们提出了一种新的理论方法，通过与泛化 Hopf 公式的建立来提高科学机器学习 (SciML) 过程的可解释性，并且该方法与最优控制问题和 Hamilton-Jacobi 偏微分方程 (HJ PDE) 的时间相关哈密顿量有关。同时，我们提供了一种基于 Riccati 的方法来解决学习问题，以应用于持续学习任务。

Nov, 2023

HSVI 能够解决零和部分可观察随机博弈

通过数学分析并且创新引入 HSV1-like 算法解决动态规划问题，其优于现有的线性规划和迭代方法。

Oct, 2022

DeepReach: 高维可达性的深度学习方法

DeepReach 是一种新的方法，利用了正弦网络的新发展，针对高维可达性问题开发了神经偏微分方程求解器，不需要任何显式监督，可以轻松处理外部干扰，对抗性输入和系统约束，并为系统提供安全控制器。在多车碰撞问题和狭窄通道问题上，DeepReach 可以实现与最先进的可达性方法相当的结果，这些问题是受自动驾驶应用启发的。

Nov, 2020

限制随机微分方程的确定性粒子流

本篇论文介绍了一种在求数值解过程中随机采样和网格方法之间插值的新型完全确定性框架，它在用对数梯度（分数）计算二个向前概率流的基础上，利用确定性粒子方法求解 Fokker-Planck 方程，计算所需的最佳干预。

Oct, 2021

关于 Lipschitz 连续控制问题的稳定性及其在强化学习中的应用

我们研究了模型无关的强化学习环境下 Hamilton-Jacobi-Bellman 方程的稳定性属性，特别是对于 Lipschitz 连续最优控制问题。通过在动力学和奖励函数中引入结构假设，我们进一步研究了值函数的收敛速度。此外，我们引入了一个广义框架，用于处理包含原始问题的 Lipschitz 连续控制问题，并基于此提出了一种新的基于 HJB 的强化学习算法。通过与现有方法的比较，我们测试了所提方法的稳定性和性能，并使用众所周知的基准示例进行了验证。

Apr, 2024

基于路径 HJB 操作符的随机系统的神经最优控制器

基于物理知识学习和动态规划，该研究旨在开发基于深度学习的算法来解决高维随机控制问题；通过引入与 Hamilton-Jacobi-Bellman 方程相关的路径操作，定义了一个物理知识学习问题，并提出了两种数值方法来求解该问题。研究对截断误差，逼近误差和优化误差对这些方法的准确性的影响进行了错误分析，并提供了各种应用的数值结果来说明所提算法的性能。

Feb, 2024

基于 Hamilton-Jacobi 的深度算子学习的策略迭代

本论文将深度算子网络（DeepONet）框架与最近发展的策略迭代方案相结合，以数值方式解决最优控制问题和相应的 Hamilton-Jacobi-Bellman（HJB）方程，在不同终端函数情况下通过算子学习的独特特性快速推断出解；通过粘性解的比较原理定量分析了算法的准确性，并通过包括 10 维线性二次调节器问题（LQRs）在内的各种示例验证了该方法的有效性。

Jun, 2024

高维可达性形式化安全保证生成

提供自治系统的正式安全性和性能保证变得越来越重要，本文提出一种提供可达管的可证安全近似解的方法，该方法可以通过计算 DeepReach 解的误差界来进行可达管的修正，并通过基于情景优化的方法来推导 DeepReach 解的误差界等.

Sep, 2022

使用物理信息神经网络的演员 - 评论家方法：控制流体冷却电池组的 1D PDE 模型

本文提出了一种基于演员 - 评论家算法的控制电池组温度的方法，使用冷却流体模型对其进行建模，并使用物理知识神经网络解决了 HJB 方程，通过最优化方式实现对控制问题的最优控制

May, 2023