连续的状态 - 动作空间中的近连续时间强化学习

Sep, 2023

连续的状态 - 动作空间中的近连续时间强化学习

Near-continuous time Reinforcement Learning for continuous state-action spaces

Lorenzo Croissant, Marc Abeille, Bruno Bouchard

TL;DR通过使用泊松时钟模型与连续时间，本研究旨在克服强化学习中离散时间与离散状态的局限性，并且提出了一个算法来应对连续时间下的学习和规划任务，其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 的性能。

Abstract

We consider the reinforcement learning problem of controlling an unknown dynamical system to maximise the long-term average reward along a single trajectory. Most of the literature considers system interactions t

reinforcement learning dynamical system continuous-time poisson clock regret

发现论文，激发创造

无折扣连续强化学习的在线遗憾界

该研究针对连续状态空间中的无折扣强化学习问题，提出了一种结合状态聚合和使用置信上界实现面对不确定性乐观的算法，在 rewards 和 transition probabilities 保持 Holder 连续性的情况下，给出了子线性遗憾界。

Feb, 2013

随机算法与 PAC 界限在连续空间逆向强化学习中的应用

该研究探讨了具有连续状态和动作空间的离散时间贴现马尔可夫决策过程，并解决了从观察到的最优行为中推断成本函数的逆问题。研究首先考虑了完全掌握专家策略的情况，并通过使用职业度量、线性对偶和互补松弛条件来刻画逆问题的解集。为避免平凡解和不适当性，引入了自然线性标准化约束。这导致了一个无限维的线性可行性问题，并对其性质进行了深入分析。其次，采用线性函数逼近器和随机化方法，即场景方法和相关的概率可行性保证，为逆问题提供了 ε- 最优解。对于所需的近似精度，进一步讨论了样本复杂度。最后，针对只有有限一组专家示范和生成模型可供使用的更加现实的情况，给出了使用样本时产生的误差界限。

May, 2024

连续时间模型驱动强化学习中的高效探索

我们介绍了一个基于模型的强化学习算法，使用非线性常微分方程来表示连续时间动力学。我们使用校准良好的概率模型捕捉认识不确定性，并利用乐观原则进行探索。我们的分析表明，在连续时间下，测量选择策略 (MSS) 的重要性显现出来，因为我们不仅需要决定如何进行探索，还要决定何时观察底层系统。当使用高斯过程 (GP) 对常见的 MSS 选择（如等距采样）建模 ODEs 时，我们的后悔界限是次线性的。此外，我们提出了一种自适应的、数据依赖的实际 MSS，当与 GP 动力学相结合时，也能够在明显更少的样本下达到次线性的后悔。在几个应用上，我们展示了连续时间建模相对于离散时间建模的优势，以及我们提出的自适应 MSS 相对于标准基线的优势。

Oct, 2023

连续强化学习的策略优化

研究了强化学习在连续时间和空间的设置下的应用，提出了购买力占据时间的概念，并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验，验证了此方法的有效性和优势。

May, 2023

度量空间内高效无模型强化学习中的缩放

该论文提出了 ZoomRL 算法，应用于连续状态 - 动作空间中的序列强化学习问题，通过自适应离散化来平衡开发与探索并获得良好的性能保证。算法可以达到最坏情况下的复杂度 $\tilde {O}(H^{rac {5}{2}} K^{rac {d+1}{d+2}})$，且对度量的偏离具有鲁棒性。

Mar, 2020

在连续状态 - 动作空间中驯服 “数据饥饿” 的强化学习稳定性

我们介绍了一种分析连续状态 - 动作空间强化学习的新框架，并将其用于在离线和在线设置中证明收敛速度快。我们的分析突显了两个关键的稳定性属性，涉及价值函数和 / 或策略变化如何影响贝尔曼算子和占据测度。我们认为这些属性在许多连续状态 - 动作马尔科夫决策过程中得到满足，并展示了这些属性在使用线性函数逼近方法时如何自然产生。我们的分析为离线和在线强化学习中悲观主义和乐观主义的作用提供了新的视角，并突出了离线强化学习与迁移学习之间的联系。

Jan, 2024

几乎极小化最优无奖学习

研究奖励免费强化学习框架，提出新的有效算法 SS+TP，通过探索和计划两个阶段，分别进行轨迹收集和任意奖励函数优化，达到对多个奖励函数的策略优化。

Oct, 2020

大型状态空间下的分布鲁棒基于模型的强化学习

提出了一种基于高斯过程和最大方差缩减算法的模型基础方法，用于学习多输出名义转移动力学，克服了强化学习中的若干挑战，并在分布移位方面展示了算法的鲁棒性以及样本数量上的优越性。

Sep, 2023

连续时间强化学习：新设计算法的理论洞见和性能保证

连续时间非线性最优控制问题中的强化学习方法面临复杂性、数值条件和维度扩展等挑战。该论文介绍了新的强化学习算法，应用于仿射非线性系统的控制，并引入了新的激发框架以优化性能。

Jul, 2023

非稳态强化学习的复杂性

研究探讨了强化学习中连续学习的问题，证明了一种最坏情况下的复杂性结果，即改变强化学习问题中单个状态 - 行动对的概率或奖励需要大量时间来更新价值函数，除非强指数时间假设是错误的。

Jul, 2023