- 策略梯度方法的平滑化效果
通过研究,我们建立了深度强化学习中的策略梯度方法和解决反向热方程之间的等价性,并发现了策略梯度方法在随机性环境下的局限性,从而阐明了它对探索的影响和不同方面的效果。
- 策略梯度方法的矩阵低秩近似
基于低秩矩阵模型的策略优化方法降低了神经网络模型的计算和样本复杂度,同时实现了类似的累积奖励。
- ICML用随机策略梯度学习最优确定性策略
通过比较基于动作和基于参数的探索,本论文介绍了一种理论框架以及对全局收敛性的研究,用于理解强化学习中连续问题的策略梯度方法,可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。
- 带有阶段演员的演员 - 评论家强化学习
强化学习中的政策梯度方法在解决连续最优控制问题方面具有很大潜力。本研究提出了一种名为 Phased Actor in Actor-Critic (PAAC) 的新方法,旨在改善政策梯度估计的质量,减少随机性变化,并提供稳定的系统动力学。PA - 神经组合优化的自我改进:无替换抽样,仅改善
通过结合行为克隆和增强学习方法,本文简化了端到端的神经组合优化训练过程,采用随机抽样解决方案并利用概率策略改进来提高模型性能,在旅行推销员问题和车辆路径问题方面取得了令人满意的结果,并应用于作业车间调度问题,超越现有的方法。
- 通过多层级演员 - 评论家算法在平均奖励强化学习中实现全局最优性无需混合时间预言机
通过引入多层渐进策略梯度估计方法,解决了在平均奖励增强学习中混合时间知识的依赖性问题,并取得了比之前的基于策略梯度方法(PPGAE)更高的奖励表现。
- 可证明的对数概率策略梯度
利用 log 密度梯度方法可以准确估计政策梯度,并且这种方法能够改善强化学习算法的样本复杂性,通过减少样本数提供了一种有希望的新方向。
- 通过重要性采样在自然策略梯度中重新使用历史轨迹:收敛性和收敛速率
本文研究了一种重用历史轨迹的自然策略梯度方法变体,并证明了所提梯度估计器的偏差在渐近上是可以忽略的,算法收敛且重用过去的轨迹有助于提高收敛速度。我们进一步将所提估计器应用于流行的策略优化算法,如信任区域策略优化,并在经典基准测试上验证了我们 - 离策略和同策略策略梯度方法何时一致?
政策梯度方法是广泛应用于具有连续动作空间的任务的强化学习算法,本研究探讨了远离策略目标和传统的在线策略目标之间的差异,并提供了首个理论分析以及条件减小差距的经验证据。
- ICLR识别政策梯度子空间
通过评估两种常用的深度策略梯度方法在各种模拟基准任务上的表现,我们的研究结果表明,尽管强化学习所固有的数据分布不断变化,梯度子空间仍然存在,这为未来更高效的强化学习提供了有益的方向,例如通过改善参数空间探索或实现二阶优化。
- AAAI具有单一控制器的多人马尔可夫博弈中的乐观策略梯度:超越 Minty 属性的收敛
在这篇论文中,我们提出了一个新的框架来描述多人 Markov 游戏中的乐观策略梯度方法,在单个控制器下收敛到稳定的 ε-NE,其收敛速度为 O (1/ε^2) 次迭代,该框架基于对经典 Minty 性质的自然推广,我们相信它在 Markov - 离散时间静态输出反馈策略梯度方法的优化景观
静态输出反馈控制中政策梯度方法在离散时间线性时不变系统中的优化性质的分析
- 加速策略梯度法:关于强化学习中的 Nesterov 动量
加速策略梯度(APG)是一种基于 Nesterov 加速梯度方法的强化学习(RL)算法,通过形式化证明 APG 在真梯度下以接近 1/t^2 的速度收敛,首次给出了 NAG 在 RL 背景下的全局收敛率,数值验证显示 APG 相比标准策略梯 - 强化学习,游戏与控制中的政策梯度方法的全局收敛性
通过最大化值函数来寻找感兴趣的策略的政策梯度方法在顺序决策、强化学习、游戏和控制中变得越来越受欢迎,然而,由于值函数的非凸性,保证政策梯度方法的全局最优性非常困难。本文重点介绍了近期在理解和开发具有全局收敛保证的政策梯度方法方面的进展,特别 - 学习分散的部分可观测均场控制以实现人工集体行为
该研究论文介绍了一种解决集体行为任务的多智能体增强学习算法,该算法使用平均场控制 (MFC),并采用一种去中心化的、部分可观测的 MFC 模型。使用新的去中心化部分可观测 MFC (Dec-POMFC) 模型,该算法在代表性的集体行为任务上 - 政策优化中的乐观和适应性
本研究通过乐观性和适应性对政策优化进行强化,从而将看似无关的算法重新表述为两个交错步骤的重复应用,并设计了一种通过元梯度学习实现的自适应乐观政策梯度算法。
- 通过无悔动力学求解健壮 MDP
通过解决最小最大迭代优化问题的简单框架,我们利用在线非凸学习和改进策略梯度方法的技术,提出了一种算法,该算法在 $O (1/T^{1/2})$ 的时间内能最大化带着鲁棒性的价值函数。
- 政策镜像下降算法固有地探索动作空间
本文所提出的新算法不依赖于探索策略,通过引入两个新的基于策略的评估算符和对 SPMD 算法的新颖分析,实现了在线策略梯度方法的样本复杂度的近似上界,无需显式探索,可以避免在寻找最优策略时反复执行潜在的高风险动作,具有更强的收敛性能。
- SoftTreeMax: 通过树搜索实现策略梯度的指数级方差减少
本文提出一种新型的神经网络方案 SoftTreeMax,通过树形计划从多个层面减轻策略梯度算法中的大方差、高样本复杂度问题,实现在 Atari 游戏中优异的性能表现。
- 部分优势估计器用于近端策略优化
研究如何改善不完整轨迹下 GAE 方法估计价值函数时的偏差问题,提出使用 GAE 方法的一部分来计算更新,称之为 “partial GAE approach”,在实验证明该方法在两个环境中都得到更好的结果。