强化学习的预期策略梯度
论文提出了一种集成了随机策略梯度和确定性策略梯度的预期策略梯度,通过对动作的积分来估算梯度,证明了其可以降低梯度估算的方差,对于高斯探索,通过设置动作的海森矩阵的指数作为协方差比标准探索更优,在四个 MuJoCo 域中明显优于使用奥恩斯坦 - 乌伦贝克启发式的确定性策略梯度.
Jun, 2017
该研究提出了一种元学习方法,用于学习基于梯度的加强学习算法,即演化可微损失函数,以便代理可以最小化该损失来优化其策略并获得高回报。经实证结果表明,与现成的策略梯度方法相比,所提出的演化策略梯度算法(EPG)在几个随机环境上实现了更快的学习,且其学习的损失可以推广到测试时间外的任务,并呈现出与其他流行的元学习算法截然不同的行为。
Feb, 2018
通过比较基于动作和基于参数的探索,本论文介绍了一种理论框架以及对全局收敛性的研究,用于理解强化学习中连续问题的策略梯度方法,可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。
May, 2024
介绍了 Policy Cover-Policy Gradient (PC-PG) 算法,其通过学习的策略集 (策略保证) 来平衡探索和开发的权衡,同时具有强大的模型误差优化保证
Jul, 2020
本文提出了一种最大熵策略优化框架,该框架明确地鼓励参数探索,并表明这个框架可以被归约为一个贝叶斯推理问题。然后,我们提出了一种新颖的斯坦变分策略梯度方法 (SVPG),该方法结合了现有的策略梯度方法和一个排斥函数来生成一组多样但行为良好的策略。在连续控制问题上,我们发现在 REINFORCE 和优势演员 - 评论家算法的基础上实现 SVPG 可以提高平均回报和数据效率。
Apr, 2017
我们考虑用于赌博机和表格马尔可夫决策过程(MDP)的(随机)softmax 策略梯度(PG)方法。最近的研究利用了 PG 目标的平滑性和梯度支配性质来实现对最优策略的收敛,而不需要设置算法参数。为了解决这个问题,我们借鉴了优化文献的思路,在精确设置和随机设置的情况下设计了实用的、有原则的 PG 方法。
May, 2024
提出了一种新的混合随机策略梯度估计器,并使用此估计器开发了一种新的混合随机策略梯度算法(ProxHSPGA)来解决复合策略优化问题,该算法可以处理策略参数上的约束或规则化,已经在强化学习中的一些示例上进行了评估和验证。
Mar, 2020
这项研究主要关注多智能体强化学习中的熵正则化独立自然策略梯度算法,通过引入熵正则化实现有界理性的决策,从而使智能体的行为接近纳什均衡,并通过实证结果验证了理论分析的可靠性。
May, 2024
研究马尔可夫潜势博弈在无限时间平均回报准则下,证明基于独立策略梯度和独立自然策略梯度的算法都能在全局收敛到纳什均衡点,同时提出了渐进性和底座条件,通过梯度和微分值函数的灵敏度边界为梯度方法奠定了基础,并证明了三种算法的收敛性以及具体的时间复杂度,当需要估计策略梯度时,我们提出了一个算法并给出了样本复杂度分析,最后通过模拟研究来验证结果。
Mar, 2024
本研究采用分布式角度的强化学习来适用于连续控制环境,提出了分布式分布式深度确定策略梯度算法 D4PG,结合了 N 步回报和优先经验回放等简单改进。实验结果表明,在各种控制任务、难以操作的任务和一组基于障碍的定位任务中,D4PG 算法均实现了最先进的性能。
Apr, 2018