全随机梯度算法及其在强化学习中的应用
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
基于政策梯度定理的深度强化学习中,各种强大的政策梯度算法已被提出。本论文提供了对政策梯度算法的整体概述,旨在促进对其理论基础和实际实现的理解,包括连续版本的政策梯度定理的详细证明、收敛性结果以及对实际算法的全面讨论。通过在连续控制环境中比较最重要的算法并提供正则化的好处方面的见解,进一步加强了对主题的认识。
Jan, 2024
本文提出一种无需特定抽样策略即可从起始状态重构策略梯度的新方法。通过使用来自离线数据流的梯度评论家的时序差异更新,开发了首个可以无模型地避开分布转移问题的估计器。实验证明,其具有良好的偏差 - 方差平衡和性能表现。
Feb, 2022
通过引入随机计算图的形式化方法,该论文描述了如何自动推导损失函数梯度的无偏估计量,提出了一种计算梯度估计器的算法,从而统一了以前工作中推导的估算器和其中的方差减少技术,该算法使得研究人员可以开发涉及随机和确定性操作相结合的复杂模型,包括注意力、记忆和控制动作。
Jun, 2015
本研究提供了关于策略梯度算法的新的理论解释和证明。同时,文章还提出,策略梯度算法中的探索是计算当前政策回报的连续,而策略的方差应该是适应历史的函数,以避免局部极值,而不是为了最大化政策的回报。
May, 2023
本文探讨了基于测度值导数的随机梯度估计器及其在 actor-critic 策略梯度设置中的应用,结果显示它在低维和高维动作空间中能够达到与基于似然比或重参数化技巧的方法相当的性能。
Jul, 2021
本文介绍了一种利用深度神经网络和近似贝叶斯推理相结合的广义深度生成模型,并引入了用于表示近似后验分布的识别模型,并利用随机反向传播来开发算法,实现生成和识别模型参数的联合优化,最终将模型应用于实际数据集,生成更真实的分布、准确地恢复缺失数据,并在高维数据的可视化上发挥了重要作用。
Jan, 2014
通过分布式鲁棒性学习,我们提出了一种新的方法以解决模型的泛化问题,该方法采用随机梯度下降求解外层最小化问题,并通过多层蒙特卡罗随机化有效地估计内层最大化问题的梯度,并通过得出理论结果确定了梯度估计器的最佳参数化,从而在计算时间和统计方差之间平衡。数值实验证明,我们的 DRL 方法在以往研究中具有显著优势。
Dec, 2020
本文研究了如何在离线数据中高效地估计策略梯度。我们提出了一个元算法,在不需要参数假设的情况下实现了可行均方误差的渐进下界,并且具有三重双重稳健性质。我们还讨论了如何估计算法所依赖的干扰量。最后,我们证明了当我们朝着新的策略梯度方向迈出步伐时,我们接近稳态点的速度是有保证的。
Feb, 2020
研究了深度策略梯度算法的行为如何反映驱动其发展的概念框架,并提出了对最先进方法的细粒度分析。结果表明,深度策略梯度算法的行为经常偏离其驱动框架所预测的行为,这表明了我们对当前方法的了解不足,并提示需要超越当前基准中心的评估方法。
Nov, 2018