弱连接连续动作马尔可夫决策过程的深度强化学习

Jun, 2024

弱连接连续动作马尔可夫决策过程的深度强化学习

Deep reinforcement learning for weakly coupled MDP's with continuous actions

Francisco Robledo, Urtzi Ayesta, Konstantin Avrachenkov

TL;DR该论文介绍了用于弱耦合 MDP 问题和连续动作空间的 Lagrange 策略 (LPCA) 一种强化学习算法，它通过在神经网络框架中引入弱耦合 MDP 问题的 Lagrange 松弛来解决依赖于连续动作的资源约束挑战，并有效地解耦了 MDP，从而实现在资源受限环境中的高效策略学习。我们提出了两个 LPCA 的变体：LPCA-DE，它利用差分进化进行全局优化；LPCA-Greedy，它基于 Q 值梯度逐步贪心地选择动作。在不同设置下与其他最先进技术进行的比较分析突出了 LPCA 在资源分配管理和最大化奖励方面的鲁棒性和效率。

Abstract

This paper introduces the lagrange policy for continuous actions (LPCA), a reinforcement learning algorithm specifically designed for weakly coupled MDP problems with →

lagrange policy for continuous actions reinforcement learning algorithm weakly coupled mdp problems continuous action spaces resource constraints

发现论文，激发创造

具有连续动作空间的低秩马尔可夫决策进程

在这项研究中，我们研究了将低秩马尔可夫决策过程（MDPs）的方法扩展到具有连续动作的情况，并探索了多种具体方法。我们以 FLAMBE 算法作为案例研究，表明在动作允许连续的情况下，得到了类似的 PAC 界限。

Nov, 2023

基于模型的参数化行动空间强化学习

我们提出了一种新颖的基于模型的强化学习算法 -- 具有参数化动作的动力学学习和预测控制 (DLPA)-- 用于参数化动作马尔可夫决策过程 (PAMDPs)。代理器通过学习参数化动作条件的动力学模型，并使用修改的模型预测路径积分控制进行规划。我们在利普希茨连续性的视角下，理论上量化了在规划过程中生成的轨迹与最优轨迹之间的差异。我们在几个标准基准测试中的实证结果表明，我们的算法在样本效率和渐近性能方面超过了最先进的 PAMDP 方法。

Apr, 2024

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

参数化行动下的强化学习

介绍了一种无模型算法，用于在具有参数化动作的马尔可夫决策过程中学习 - 离散动作具有连续参数。提出了用于在这些领域中学习的 Q-PAMDP 算法，并将其与 Platform 和 Goal-scoring 领域中的直接政策搜索进行比较。

Sep, 2015

CAQL: 连续动作 Q 学习

本研究基于价值强化学习中的连续动作 Q-learning，提出了一个 CAQL 算法，利用混合整数规划来实现最大化问题优化，该方法相对于近似方法具有更好地鲁棒性和推广性，同时在研究中表现优于基于策略的方法。

Sep, 2019

参数化行动空间下的深度强化学习

该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间，成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别，并比 2012 RoboCup 冠军代理更可靠地得分。

Nov, 2015

连续时间延迟系统的神经拉普拉斯控制

提出了一种基于神经拉普拉斯动态模型与模型预测控制理论相结合的离线学习算法，能够学习到具有固有未知延迟难以处理的实时反馈系统，实验证明其性能接近专家策略。

Feb, 2023

具有深度能量策略的强化学习

提出了一种学习连续状态和动作表达性能量策略的方法，其中软 Q 学习表达了最佳策略，该方法使用 Boltzmann 分布近似样本。通过游泳和行走机器人的模拟实验，证实了该算法的改进探索和组合性，它允许在任务之间转移技能，并且与演员 - 评论员方法存在联系，可以视为对相应能量模型进行近似推断。

Feb, 2017

基于交叉熵引导策略的连续动作 Q 学习

本文提出了一个名为 Cross-Entropy Guided Policies (CGP) 的新方法来将 Q-learning 与使用 Cross-Entropy Method (CEM) 的迭代采样策略相结合，以提高其在连续值动作域中的运行速度和稳定性。

Mar, 2019

强化学习用于带有动作约束的任务规定

本文运用离散事件系统监控控制理论的概念，提出一种方法用于在有限状态的马尔可夫决策过程中，学习最优控制策略，并利用奖励机器的发展来处理状态限制。通过给定一个例子来阐明其应用性并在此设置中展示了仿真结果。

Jan, 2022