连续控制深度强化学习的自回归策略
本文介绍了一种模型基于策略搜索的自动学习方法,使用概率非参数高斯过渡模型从数据中提取更多信息,以提高学习速度并降低模型误差的影响,已在真实机器人和控制任务中得到了应用。
Feb, 2015
传统控制器有局限性,深度强化学习通过在环境中进行探索来学习最优控制策略,为安全关键环境提出专门的深度残差策略安全强化学习方法,并在 Tennessee Eastman 过程控制中进行验证。
Oct, 2023
本文提出了基于概率模型预测控制(MPC)的基于模型的 RL 框架,以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响,同时使用 MPC 找到最小化预期长期成本的控制序列,以达到在受限环境下使用 RL 的目的。
Jun, 2017
本论文将 Deep Q-Learning 算法应用于连续动作域,并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法,可在连续动作空间中进行操作,成功解决了 20 多个模拟物理任务,并能与完全访问动态并了解其导数的规划算法相竞争,并证明该算法对许多任务能够进行端到端学习。
Sep, 2015
通过深度强化学习、自动化学习和马尔可夫决策过程等技术,学习出由自主智能体控制的环境模型,以解决复杂环境下的控制问题,并在多个强化学习基准环境中验证了方法的有效性。
Jun, 2023
本文介绍了一种名为 Robust Policy Optimization 的算法,该算法应用于强化学习中,利用扰动分布来提高策略的熵,提高探索性能,取得了比 PPO 等算法更好的性能表现,并在多个环境中表现出鲁棒性能。
Dec, 2022
本研究提出了一种名为 VAR-GPs 的方法,采用贝叶斯定理作为框架,在通过观察数据在线连续学习过程中解决后验更新的问题,并使用稀疏诱导点逼近可扩展后验概率分布,从而避免了灾难性遗忘的问题。经过实验验证,在现代连续学习基准测试中,VAR-GPs 表现优异,证明了作者们建模选择的功效。
Jun, 2020
提出了新的 Deep RL 框架 $ extbf {SR}^2 extbf {L}$,通过引入 smoothness-induced regularization,使学习到的 policy 对连续状态空间的过渡 smooth,提高抗扰动能力和样本效率。在 TRPO 和 DDPG 上实验表明,该方法取得了效果的提升。
Mar, 2020