弱链式矩阵、策略迭代和脉冲控制
本论文将深度算子网络(DeepONet)框架与最近发展的策略迭代方案相结合,以数值方式解决最优控制问题和相应的 Hamilton-Jacobi-Bellman(HJB)方程,在不同终端函数情况下通过算子学习的独特特性快速推断出解;通过粘性解的比较原理定量分析了算法的准确性,并通过包括 10 维线性二次调节器问题(LQRs)在内的各种示例验证了该方法的有效性。
Jun, 2024
我们研究了模型无关的强化学习环境下 Hamilton-Jacobi-Bellman 方程的稳定性属性,特别是对于 Lipschitz 连续最优控制问题。通过在动力学和奖励函数中引入结构假设,我们进一步研究了值函数的收敛速度。此外,我们引入了一个广义框架,用于处理包含原始问题的 Lipschitz 连续控制问题,并基于此提出了一种新的基于 HJB 的强化学习算法。通过与现有方法的比较,我们测试了所提方法的稳定性和性能,并使用众所周知的基准示例进行了验证。
Apr, 2024
通过将隐含于现有优化算法中的类比隐含为显性,借助统一的解决方案特征化,本文实现了对四个问题类的分析。选择已在现有文献中指出的等效优化和控制算法,并利用特定于 MDP 的两个线性结构约束对优化中的 Hessian 进行线性约束,通过加入两个新方向和自适应步长,将标准的值迭代算法改进为一种新的一阶控制算法,被称为准策略迭代,并且与折扣因子关系的敏感性很低。
Nov, 2023
基于 Koopman 算子和马尔可夫决策过程(MDPs)的连接,发展了两种新的强化学习算法,以解决高维状态和非线性问题,构建了 “Koopman tensor” 来估计最优价值函数,通过 Koopman 张量对 Bellman 框架进行了转换,形成软值迭代和软演员 - 评论家(SAC)算法。
Mar, 2024
本文讨论了非线性动态系统的线性二次控制问题,并将其转化为线性方程。通过使用路径积分方法,解决了传统反向计算的问题,并给出了路径积分方法的有效计算方法,如 MC 抽样、Laplace 逼近和变分逼近。通过例子来说明了随机和确定性控制的区别以及噪声的对称性破坏现象的发生。
May, 2005
基于物理知识学习和动态规划,该研究旨在开发基于深度学习的算法来解决高维随机控制问题;通过引入与 Hamilton-Jacobi-Bellman 方程相关的路径操作,定义了一个物理知识学习问题,并提出了两种数值方法来求解该问题。研究对截断误差,逼近误差和优化误差对这些方法的准确性的影响进行了错误分析,并提供了各种应用的数值结果来说明所提算法的性能。
Feb, 2024
本文探讨了 McKean-Vlasov 随机微分方程的随机最优控制问题,通过使用反馈控制,将问题重构为只有过程的边际分布的确定性控制问题,并证明了动态规划原则在其一般形式下成立。然后,我们利用随机微分方程解的可导性概念,推导出平均场随机控制问题的 Bellman 方程,并在 McKean-Vlasov 框架下证明了验证定理。针对线性二次平均场控制问题,给出了 Bellman 方程的显式解,包括在平均方差组合选择和系统性风险模型等方面的应用。最后,我们考虑具有开环控制的 McKean-Vlasov 控制问题,并讨论相应的动态规划方程与闭环控制情况的比较。
Dec, 2015
使用压缩多项式在张量列车(Tensor Train)格式上解决 Hamilton-Jacobi-Bellman(HJB)方程的直接时间积分方法,以避免样本、标准化常数和高维度的问题。
Feb, 2024
本篇论文介绍了一种在求数值解过程中随机采样和网格方法之间插值的新型完全确定性框架,它在用对数梯度(分数)计算二个向前概率流的基础上,利用确定性粒子方法求解 Fokker-Planck 方程,计算所需的最佳干预。
Oct, 2021
本文提出了一个统一的框架,能够证明广泛使用的迭代一阶优化算法的指数收敛和次指数收敛速率,并展示了该框架对梯度法、近端算法及其加速变体的实用性,同时开发了连续时间对应物,能够分析梯度流和 Nesterov 加速法的连续时间极限。
May, 2017