什么时候进行感知和控制？一种适应时间的连续时间强化学习方法

Jun, 2024

什么时候进行感知和控制？一种适应时间的连续时间强化学习方法

When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL

Lenart Treven, Bhavya Sukhija, Yarden As, Florian Dörfler, Andreas Krause

TL;DR优化系统学习离散时间决策进程的强化学习算法，以减少与系统的交互次数并提高性能，同时提出了时间自适应控制和感知（TaCoS）框架以及 OTaCoS 模型算法。

Abstract

reinforcement learning (RL) excels in optimizing policies for discrete-time Markov decision processes (mdp). However, various systems are inherently continuous in time, making discrete-time MDPs an inexact modeli

reinforcement learning time-adaptive control sensing mdp otacos

发现论文，激发创造

时钟受限的鲁棒马尔科夫决策过程

通过引入新的时间约束鲁棒马尔科夫决策过程（TC-RMDP）表达方式，考虑到多因素、相关性和时变干扰，该研究重新审视了鲁棒强化学习中的传统假设，为发展更实际、更真实的强化学习应用开辟了新的路径，同时在时间受限环境下，在保持鲁棒性的同时，取得了性能和鲁棒性之间的高效平衡。

Jun, 2024

通过持续行动的可变时间离散化的演员 - 评论家方法

提出了一种名为 SusACER 的离策略强化学习算法，它结合了不同时间离散化设置的优势，通过始初稀疏时间离散化逐渐转换为精细离散化，在机器人控制环境中进行分析，证实该算法在 Ant、HalfCheetah、Hopper 和 Walker2D 等场景中优于现有技术。

Aug, 2023

实时强化学习

介绍了一种新的实时实时决策过程框架，并分析了现有算法在此新框架下的缺陷。然后使用这些洞察力创建了一个新算法实时演员评论家（RTAC），在实时和非实时设置中均优于现有最先进的连续控制算法 Soft Actor-Critic。

Nov, 2019

时间自适应强化学习

本文介绍一种适用于时间限制任务的增强学习算法，称为适应时间的马尔可夫决策过程，这种算法可以灵活地适应不同的时间限制，并使用两种无模型，基于价值的算法，Gamma-Ensemble 和 n-Step Ensemble。该算法可与许多现有的 RL 方法，算法和场景兼容，并能够实现零 - shot 的适应能力。

Apr, 2020

连续时间强化学习：新设计算法的理论洞见和性能保证

连续时间非线性最优控制问题中的强化学习方法面临复杂性、数值条件和维度扩展等挑战。该论文介绍了新的强化学习算法，应用于仿射非线性系统的控制，并引入了新的激发框架以优化性能。

Jul, 2023

连续时间延迟系统的神经拉普拉斯控制

提出了一种基于神经拉普拉斯动态模型与模型预测控制理论相结合的离线学习算法，能够学习到具有固有未知延迟难以处理的实时反馈系统，实验证明其性能接近专家策略。

Feb, 2023

连续的状态 - 动作空间中的近连续时间强化学习

通过使用泊松时钟模型与连续时间，本研究旨在克服强化学习中离散时间与离散状态的局限性，并且提出了一个算法来应对连续时间下的学习和规划任务，其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 的性能。

Sep, 2023

可部署的变控制率强化学习

以变频控制为基础的 Soft Elastic Actor-Critic (SEAC) 算法相较于固定频率的策略在控制系统中表现出更高的平均回报率、较短的任务完成时间和更少的计算资源占用。

Jan, 2024

延迟随机环境中的控制：基于模型的强化学习方法

本文介绍了一种用于具有延迟反馈环境中的控制问题的新的强化学习方法，该方法采用了随机规划而非以前使用的确定性规划方法，从而在策略优化问题中嵌入了风险偏好。我们展示了该方法能够恢复具有确定性转换的问题的最优策略，并将其与文献中的两种先前方法进行对比。我们将该方法应用于简单任务以了解其特点，然后比较了这些方法在控制多个 Atari 游戏方面的性能。

Feb, 2024

基于数据驱动的实时高效强化学习算法的 H∞控制：应用于自动化移动出行系统

基于 Q 学习的算法解决线性离散时间系统的 H∞控制，并实现了模型无关的参数在线学习，从而将计算复杂性降低到 qu 的平方，其中 q 是状态变量、控制输入和干扰大小之和。

Sep, 2023