连续控制深度强化学习的自回归策略

IJCAIMar, 2019

连续控制深度强化学习的自回归策略

Autoregressive Policies for Continuous Control Deep Reinforcement Learning

Dmytro Korenkevych, A. Rupam Mahmood, Gautham Vasan, James Bergstra

TL;DR本文提出了一种自回归策略，以改善强化学习在连续控制任务中的探索效率，从而产生平稳的探索轨迹以及较高的采样效率。

Abstract

reinforcement learning algorithms rely on exploration to discover new behaviors, which is typically achieved by following a stochastic policy. In

reinforcement learning autoregressive policy continuous control tasks sample efficiency exploration

发现论文，激发创造

机器人和控制中的高斯过程数据有效学习

本文介绍了一种模型基于策略搜索的自动学习方法，使用概率非参数高斯过渡模型从数据中提取更多信息，以提高学习速度并降低模型误差的影响，已在真实机器人和控制任务中得到了应用。

Feb, 2015

离线策略评估和优化的自回归动态模型

提出了一种基于自回归动力学模型的控制模型，分析了其在离线数据集 RL Unplugged 中的表现，证明其在策略优化中具有潜在应用。

Apr, 2021

复杂和连续状态行动空间的专用深度残差策略安全强化学习控制器

传统控制器有局限性，深度强化学习通过在环境中进行探索来学习最优控制策略，为安全关键环境提出专门的深度残差策略安全强化学习方法，并在 Tennessee Eastman 过程控制中进行验证。

Oct, 2023

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

连续随机动力学学习环境模型

通过深度强化学习、自动化学习和马尔可夫决策过程等技术，学习出由自主智能体控制的环境模型，以解决复杂环境下的控制问题，并在多个强化学习基准环境中验证了方法的有效性。

Jun, 2023

深度强化学习中的鲁棒策略优化

本文介绍了一种名为 Robust Policy Optimization 的算法，该算法应用于强化学习中，利用扰动分布来提高策略的熵，提高探索性能，取得了比 PPO 等算法更好的性能表现，并在多个环境中表现出鲁棒性能。

Dec, 2022

无探索非策略深度强化学习

本文提出了一种新的批量约束强化学习算法，该算法可以从任意固定批量数据中有效学习，为解决强化学习中的一些关键问题提供可能性。

Dec, 2018

变分自回归高斯过程用于不断学习

本研究提出了一种名为 VAR-GPs 的方法，采用贝叶斯定理作为框架，在通过观察数据在线连续学习过程中解决后验更新的问题，并使用稀疏诱导点逼近可扩展后验概率分布，从而避免了灾难性遗忘的问题。经过实验验证，在现代连续学习基准测试中，VAR-GPs 表现优异，证明了作者们建模选择的功效。

Jun, 2020

稳健且平滑的深度强化学习策略

提出了新的 Deep RL 框架 $ extbf {SR}^2 extbf {L}$，通过引入 smoothness-induced regularization，使学习到的 policy 对连续状态空间的过渡 smooth，提高抗扰动能力和样本效率。在 TRPO 和 DDPG 上实验表明，该方法取得了效果的提升。

Mar, 2020