连续时间控制中积分增强学习的计算影响

Feb, 2024

连续时间控制中积分增强学习的计算影响

Impact of Computation in Integral Reinforcement Learning for Continuous-Time Control

Wenhan Cao, Wei Pan

TL;DR积分强化学习中的计算方法选择（如求积法则）对控制性能产生显著影响，并通过与哈密顿 - 雅可比 - 贝尔曼方程的牛顿法相比较，揭示了计算误差在策略迭代中的额外误差项，并且在使用再生核希尔伯特空间中的效用函数时，通过贝叶斯求积法与诱导核函数结合可以实现最佳求积，其中理论发现最终通过两个经典控制任务得到验证。

Abstract

integral reinforcement learning (IntRL) demands the precise computation of the utility function's integral at its policy evaluation (PEV) stage. This is achieved through →

integral reinforcement learning quadrature rules policy evaluation convergence behavior bayesian quadrature

发现论文，激发创造

基于数据驱动的实时高效强化学习算法的 H∞控制：应用于自动化移动出行系统

基于 Q 学习的算法解决线性离散时间系统的 H∞控制，并实现了模型无关的参数在线学习，从而将计算复杂性降低到 qu 的平方，其中 q 是状态变量、控制输入和干扰大小之和。

Sep, 2023

连续时间强化学习：新设计算法的理论洞见和性能保证

连续时间非线性最优控制问题中的强化学习方法面临复杂性、数值条件和维度扩展等挑战。该论文介绍了新的强化学习算法，应用于仿射非线性系统的控制，并引入了新的激发框架以优化性能。

Jul, 2023

用于带有二次奖励的强化学习的稳态误差补偿

该研究提出了一种在强化学习中选择奖励函数的方法，通过将积分项引入二次型奖励函数中，使得强化学习算法在考虑长期奖励的同时，有效减小稳态误差并实现系统状态的平稳变化。

Feb, 2024

使用强化学习加速二次优化

使用强化学习 RLQP 策略自动调整参数，加速求解二次优化问题，与现有算法相比，RLQP 能显著提高性能并普适适用于不同应用场景。

Jul, 2021

连续的状态 - 动作空间中的近连续时间强化学习

通过使用泊松时钟模型与连续时间，本研究旨在克服强化学习中离散时间与离散状态的局限性，并且提出了一个算法来应对连续时间下的学习和规划任务，其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 的性能。

Sep, 2023

控制置信成本

我们开发了一种考虑推断计算成本的随机控制方法，结合了有效编码和高效控制的概念。研究发现，代理人通过在后验概率相对精度上增加内部成本来权衡总效用和任务性能，从而实现有效控制。通过研究线性二次高斯控制，我们发现代理人在不同任务需求下转换为一系列与旋转变换相关的次最优推断策略，每个策略都对世界的稳定性估计存在误差。这项工作为大脑和机器在高效但受计算限制的控制方面提供了新的合理计算基础。

Jun, 2024

为量子控制设计的样本高效的基于模型的强化学习

利用基于神经常微分方程（ODE）的归纳偏置，提出了一种基于模型的强化学习（RL）方法，用于在噪声时变门优化中近似环境模型，其时间依赖部分包括控制方式完全已知。与标准的基于模型的 RL 相比，我们的方法在样本复杂度方面具有数量级的优势，适用于控制一、二量子位系统。

Apr, 2023

强化学习强化强度控制：基于选择的网络营收管理应用

通过利用强化学习框架在选择网络收入管理作为案例研究中的强度控制，不需要事先对时间进行离散化，从而降低计算难度和离散化误差，并通过综合的数值研究展示了我们方法相对于其他最新技术基准的优势。

Jun, 2024

通过信任域拟 - 牛顿策略优化强化模型预测控制

通过使用参数化模型预测控制器作为策略并利用所需参数的少量，我们提出了一种带有超线性收敛率的限制拟牛顿训练算法进行策略优化。通过解线性方程组的解来计算所需的二阶导数信息。模拟研究表明，所提出的训练算法在数据效率和准确性方面优于其他算法。

May, 2024

强化学习算法在倒立摆问题上的比较

本文研究了在没有先验动态知识的情况下，利用强化学习算法（如时间差分、策略梯度、价值函数逼近）对基准车杆动力系统进行控制的最优控制策略，进一步提出了将强化学习和摆起控制器相结合的新方法。

Oct, 2018