具有深度能量策略的强化学习
本文提出了一种新的深度强化学习算法,利用基于熵正则化的期望回报目标推导出软策略梯度,将其与软 Bellman 方程相结合,得到了名为 DSPG 的最大熵深度强化学习算法,该算法采用双重采样方法确保学习的稳定性,有效提高了表现,克服了已有方法在大规模离线数据训练以及具有高维动作状态问题的稳定性不足等问题。
Sep, 2019
我们引入了一种基于能量的正则化流(EBFlow)建模的新的最大熵强化学习框架,该框架集成了策略评估步骤和策略改进步骤,实现了单一的目标训练过程,并且能够计算用于策略评估目标的软值函数,同时支持多模态动作分布的建模和高效的动作采样。我们在 MuJoCo 基准套件和 Omniverse Isaac Gym 模拟的多个高维机器人任务上进行了实验评估,结果表明我们的方法相较于广泛采用的代表性基准方法具有更优越的性能。
May, 2024
本论文将 Deep Q-Learning 算法应用于连续动作域,并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法,可在连续动作空间中进行操作,成功解决了 20 多个模拟物理任务,并能与完全访问动态并了解其导数的规划算法相竞争,并证明该算法对许多任务能够进行端到端学习。
Sep, 2015
本研究讨论利用学习到的动力学模型进行规划,并提出使用环境状态转换的能量估计来规范该模型以实现样本有效学习,结果表明该方法可以在几分钟的经验中实现具有竞争力表现的学习。
Oct, 2019
混合符号奖励环境中,重新考虑原有策略更新方法的安全性,通过解决数值估计误差的问题和不显式地最大化 Q 值的方法,提出了新的离策略演员 - 评论家方法,以提高深度强化学习算法在连续动作空间中的学习效果。
Nov, 2023
本文提出了一个名为 Cross-Entropy Guided Policies (CGP) 的新方法来将 Q-learning 与使用 Cross-Entropy Method (CEM) 的迭代采样策略相结合,以提高其在连续值动作域中的运行速度和稳定性。
Mar, 2019
本文提出了一种深度变分强化学习方法,该方法引入了归纳偏置,允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明,我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。
Jun, 2018
本文提出一种基于最大熵强化学习框架的深度离策略演员 - 评论家算法,该算法通过离策略更新和稳定的随机演员 - 评论家公式结合,实现了在一系列连续控制基准任务上的最先进表现。
Jan, 2018
学习表达性随机策略而不是确定性策略已经被提出,以实现更好的稳定性、采样复杂度和鲁棒性。我们提出了 Stein Soft Actor-Critic (S^2AC),这是一种能够高效学习表达性策略的最大熵强化学习算法,通过使用参数化的 Stein 变分梯度下降(SVGD)作为基础策略,并导出了该策略的熵的闭合表达式。实证结果表明,在多目标环境中,S^2AC 相较于 SQL 和 SAC 能够提供更优的最大熵目标解,并在 MuJoCo 基准测试中胜过 SAC 和 SQL。
May, 2024
本研究探讨软 Q-learning 方法在真实世界机器人操作中的应用,证明软 Q-learning 方法比先前的模型自由深度强化学习方法具有更高的采样效率,并且可以通过将学习到的策略组合创建新的策略,从而在真实世界机器人操作中提供高效的工具。
Mar, 2018