连续时间延迟系统的神经拉普拉斯控制

Feb, 2023

连续时间延迟系统的神经拉普拉斯控制

Neural Laplace Control for Continuous-time Delayed Systems

Samuel Holt, Alihan Hüyük, Zhaozhi Qian, Hao Sun, Mihaela van der Schaar

TL;DR提出了一种基于神经拉普拉斯动态模型与模型预测控制理论相结合的离线学习算法，能够学习到具有固有未知延迟难以处理的实时反馈系统，实验证明其性能接近专家策略。

Abstract

Many real-world offline reinforcement learning (RL) problems involve continuous-time environments with delays. Such environments are characterized by two distinctive features: firstly, the state x(t) is observed

offline reinforcement learning continuous-time environments irregular observations unknown delays neural laplace control

发现论文，激发创造

延迟随机环境中的控制：基于模型的强化学习方法

本文介绍了一种用于具有延迟反馈环境中的控制问题的新的强化学习方法，该方法采用了随机规划而非以前使用的确定性规划方法，从而在策略优化问题中嵌入了风险偏好。我们展示了该方法能够恢复具有确定性转换的问题的最优策略，并将其与文献中的两种先前方法进行对比。我们将该方法应用于简单任务以了解其特点，然后比较了这些方法在控制多个 Atari 游戏方面的性能。

Feb, 2024

随机延迟的强化学习

研究分析了随机延迟环境中的多步价值估计问题，提出了一种基于 Soft Actor-Critic 的延迟校正 Actor-Critic 算法来解决，实验证明其在 MuJoCo 连续控制环境中具有显著的性能优势。

Oct, 2020

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

基于模型的延迟感知连续控制强化学习

该研究提出了延迟感知的马尔可夫决策过程的正式定义，并证明它可以通过使用马尔可夫奖励过程中的增强状态转化为标准 MDP。我们开发了一个延迟感知的模型驱动强化学习框架，可以将多步延迟纳入学习到的系统模型中，而无需进行学习。与 Gym 和 MuJoCo 平台进行的实验表明，与非策略模型无关的强化学习方法相比，所提出的延迟感知模型驱动算法在训练和各种延迟时间系统之间具有更高的效率和可传递性。

May, 2020

连续时间强化学习：新设计算法的理论洞见和性能保证

连续时间非线性最优控制问题中的强化学习方法面临复杂性、数值条件和维度扩展等挑战。该论文介绍了新的强化学习算法，应用于仿射非线性系统的控制，并引入了新的激发框架以优化性能。

Jul, 2023

连续的状态 - 动作空间中的近连续时间强化学习

通过使用泊松时钟模型与连续时间，本研究旨在克服强化学习中离散时间与离散状态的局限性，并且提出了一个算法来应对连续时间下的学习和规划任务，其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 的性能。

Sep, 2023

非线性深度神经网络建模的高效模型预测控制

该研究论文提出了一种用于动态系统的模型预测控制（MPC）方法，该方法利用深度神经网络（NNs）对系统的非线性和不确定性进行建模，并提出了两种用于解决 MPC 问题的方法：混合整数规划（MIP）方法和线性松弛（LR）方法。进行了广泛的数值模拟来演示和比较 MIP 和 LR 方法的性能。

May, 2024

强化学习中的延迟

研究关于延迟对动态系统、马尔可夫决策过程、强化学习和实证结果的影响。

Sep, 2023

将循环强化学习纳入模型预测控制中，以实现自主驾驶中的自适应控制

通过解决 MPC 控制器在现实场景下系统识别学习失败的问题，将其转化为部分观察马尔科夫决策过程，通过循环强化学习不断地适应动态模型参数，该论文提出了一种自适应控制算法 (MPC-RRL)，最终在 CARLA 模拟器中得出了具有鲁棒性和可靠性的自动驾驶控制效果。

Jan, 2023

使用深度强化学习的自适应 PD 控制在具有随机时间延迟的本地远程遥操作中

通过增强学习实现自适应控制方法来处理时延控制问题，通过采用模型式增强学习方法，该方法能够稳定解决在 290ms 以内的时延通信问题。

May, 2023