基于交叉熵引导策略的连续动作 Q 学习
本论文将 Deep Q-Learning 算法应用于连续动作域,并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法,可在连续动作空间中进行操作,成功解决了 20 多个模拟物理任务,并能与完全访问动态并了解其导数的规划算法相竞争,并证明该算法对许多任务能够进行端到端学习。
Sep, 2015
我们提出了一种基于离线策略的 Actor-Critic 算法,结合了随机搜索梯度 - free 优化和学习的动作价值函数,通过评估参数化动作 - 价值函数、估计局部非参数化策略和拟合参数化策略的三个步骤,在 31 个连续控制任务中进行对比与实验,并取得了良好的效果。
Dec, 2018
本研究基于王等人 2020 年提出的熵正则探索性扩散过程公式,研究了连续时间下的 Q 学习,构建了独立于时间离散化的 q 函数学习理论,并应用该理论设计了 actor-critic 算法来解决强化学习问题,同时通过模拟实验验证了算法性能。
Jul, 2022
提出了一种学习连续状态和动作表达性能量策略的方法,其中软 Q 学习表达了最佳策略,该方法使用 Boltzmann 分布近似样本。通过游泳和行走机器人的模拟实验,证实了该算法的改进探索和组合性,它允许在任务之间转移技能,并且与演员 - 评论员方法存在联系,可以视为对相应能量模型进行近似推断。
Feb, 2017
混合符号奖励环境中,重新考虑原有策略更新方法的安全性,通过解决数值估计误差的问题和不显式地最大化 Q 值的方法,提出了新的离策略演员 - 评论家方法,以提高深度强化学习算法在连续动作空间中的学习效果。
Nov, 2023
本文提出了一种新的深度强化学习算法,利用基于熵正则化的期望回报目标推导出软策略梯度,将其与软 Bellman 方程相结合,得到了名为 DSPG 的最大熵深度强化学习算法,该算法采用双重采样方法确保学习的稳定性,有效提高了表现,克服了已有方法在大规模离线数据训练以及具有高维动作状态问题的稳定性不足等问题。
Sep, 2019
本研究基于价值强化学习中的连续动作 Q-learning,提出了一个 CAQL 算法,利用混合整数规划来实现最大化问题优化,该方法相对于近似方法具有更好地鲁棒性和推广性,同时在研究中表现优于基于策略的方法。
Sep, 2019
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离线 RL 方法中的优越性,能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略
Jun, 2020
本文提出了一种名为 Quantile-Based Policy Optimization(QPO)的 RL 算法,与原有算法相比在 quantile 目标的情况下表现更好,算法使用神经网络对策略进行参数化,同时使用两个相互耦合的迭代来估计量位和策略参数。
Jan, 2022
基于双 Q 函数框架,引入一种新的探索策略来解决连续动作空间中政策梯度法探索的问题,通过使用贪婪 Q 值和保守 Q 值的加权和来更新 Q 值,将行动探索与 Q 值更新相结合,并在 Mujoco 基准测试中展示了优越的性能。
Aug, 2023