Koopman 辅助强化学习

Mar, 2024

Koopman-Assisted Reinforcement Learning

Preston Rozwood, Edward Mehrez, Ludger Paehler, Wen Sun, Steven L. Brunton

TL;DR基于 Koopman 算子和马尔可夫决策过程（MDPs）的连接，发展了两种新的强化学习算法，以解决高维状态和非线性问题，构建了 “Koopman tensor” 来估计最优价值函数，通过 Koopman 张量对 Bellman 框架进行了转换，形成软值迭代和软演员 - 评论家（SAC）算法。

Abstract

The bellman equation and its continuous form, the Hamilton-Jacobi-Bellman (HJB) equation, are ubiquitous in reinforcement learning (RL) and control theory. However, these equations quickly become intractable for

bellman equation hamilton-jacobi-bellman equation koopman operator markov decision processes reinforcement learning

发现论文，激发创造

Koopman 核回归

该研究提出了一种基于 Koopman 算子理论的新型重现核希尔伯特空间 (RKHS)，称为 Koopman Kernel Regression (KKR)，可以提高预测的准确性和泛化能力，对于以 Koopman 为基础的预测器，最新的统计学习方法存在限制，所以提供比现有研究更为详尽的证明和更宽松的假设。

May, 2023

基于深度 Koopman 表达的策略学习

本文提出了一种基于 Koopman 算子理论和策略梯度方法的政策学习算法，该算法将未知动态系统的线性逼近和最优政策搜索相结合，引入所谓的深度 Koopman 表示来提高数据效率，并应用贝尔曼最优原理来避免逼近系统动态引起的长期任务的累积误差，同时提供理论分析以证明所提出算法的渐近收敛性和采样复杂度。

May, 2023

关于 Lipschitz 连续控制问题的稳定性及其在强化学习中的应用

我们研究了模型无关的强化学习环境下 Hamilton-Jacobi-Bellman 方程的稳定性属性，特别是对于 Lipschitz 连续最优控制问题。通过在动力学和奖励函数中引入结构假设，我们进一步研究了值函数的收敛速度。此外，我们引入了一个广义框架，用于处理包含原始问题的 Lipschitz 连续控制问题，并基于此提出了一种新的基于 HJB 的强化学习算法。通过与现有方法的比较，我们测试了所提方法的稳定性和性能，并使用众所周知的基准示例进行了验证。

Apr, 2024

物理知识引导神经网络的强化学习: Hamilton-Jacobi-Bellman 近端策略优化（HJBPPO）

本文介绍了将 Hamilton-Jacobi-Bellman Proximal Policy Optimization（HJBPPO）算法引入强化学习中，使用 Hamilton-Jacobi-Bellman（HJB）方程在连续状态和动作空间中评估价值函数的最优性，将价值网络视为物理学知识神经网络（PINN）来计算其输入的导数，将其实现到 Proximal Policy Optimization（PPO）Clipped 算法中，证明 HJBPPO 算法相比 PPO 算法在 MuJoCo 环境有更好的性能表现。

Feb, 2023

基于 Hamilton-Jacobi 的深度算子学习的策略迭代

本论文将深度算子网络（DeepONet）框架与最近发展的策略迭代方案相结合，以数值方式解决最优控制问题和相应的 Hamilton-Jacobi-Bellman（HJB）方程，在不同终端函数情况下通过算子学习的独特特性快速推断出解；通过粘性解的比较原理定量分析了算法的准确性，并通过包括 10 维线性二次调节器问题（LQRs）在内的各种示例验证了该方法的有效性。

Jun, 2024

基于 Koopman 的深度学习用于非线性系统估计

应用 Koopman 算子理论和深度强化学习网络，提出了一种数据驱动的线性估计器，用于提取复杂非线性系统的有限维表示，实现对原始非线性系统未来状态的精确预测。该估计器还可以适应非线性系统的微分同胚变换，从而实现对变换后系统状态的估计，无需重新学习。

May, 2024

基于线性贝尔曼完备性的计算高效强化学习

我们研究了计算和统计效率高的线性 Bellman 完整设置下的强化学习算法，该设置使用线性函数逼近来捕捉值函数，并统一了线性马尔可夫决策过程和线性二次调节器等现有模型。

Jun, 2024

交互环境中基于 Koopman 理论的高效动力学建模

采用 Koopman 理论的方法，在高维潜在空间中线性化环境的非线性动力学，从而实现加速连续计划和模拟学习。

Jun, 2023

Koopman 算子动态模型：学习、分析和控制

本篇论文探讨了 Koopman 算子理论在处理非线性系统方面的应用，着重介绍了 Koopman 算子动力学模型中各种现有方法的优缺点，分析了 Koopman 算子理论与系统理论概念的关系及其在控制系统建模中的潜力，同时讨论了当前的挑战和未来的发展方向。

Feb, 2021

非参数控制 - Koopman 操作器学习：灵活可扩展的预测和控制模型

通过控制仿射再现内积核，我们提出了一种通用框架 —— 控制 Koopman 算子回归（cKOR），它允许直接估计单个算子，用于解决非线性控制仿射系统的 Koopman 算子表示的学习问题，并且通过利用随机投影（sketching）增强了控制 - Koopman 算子估计器的可扩展性。

May, 2024