政策搅动现象
本文提出了一种新颖的无模型强化学习策略梯度算法,采用基于概率的有指导性的探索策略,相比现有熵正则化方法更有效地探索高维度的稀疏奖励空间,并在一系列算法任务上得到了成功的应用。
Nov, 2016
本文研究了改进策略和评估策略之间交替的着名Policy Iteration算法,以及其变体中多步向前的政策改进,形成了多步政策改进的变量,导出了新的算法并证明了其收敛性。此外,文章还展示了近期著名的强化学习算法实际上是我们框架的实例,阐明了它们的经验成功,为未来研究提供了推导新算法的方法。
Feb, 2018
本文介绍了针对有限状态折扣马尔可夫决策问题的近似解法- 政策迭代方法,重点关注基于特征聚合的方法以及它们与深度强化学习方案的关系。本文提出了原问题状态的特征并且制定了一个更小的“聚合”的马尔可夫决策问题,其状态与特征相关。我们讨论了这种聚合的性质和可能的实现,其中包括一种利用深度神经网络或其他计算进行特征构建的新近似政策迭代方法。我们认为,通过聚合提供的特征的非线性函数比神经网络强化学习提供的特征的线性函数更能够准确地逼近策略的成本函数,从而潜在地导致更有效的政策改进。
Apr, 2018
研究强化学习中探索和近似之间的相互作用,提出一种基于密度建模的方法来改善探索,探讨伪计数奖励在此方法中的应用,发现了在其应用中可能存在的过度或不足探索问题,并提出一种新的伪计数奖励来缓解这些问题。
Aug, 2018
探讨在Atari 2600游戏环境中使用基于价值的强化学习方法在面对不同程度的非随机性(non-stationarity)时,其所采用的策略的丧失学习能力现象,通过对不同维度条件下的实验结果,发现这种现象与网络中激活函数的稀疏性相关,本文提出的嵌入化ReLU(CReLUs)激活函数可以有效提高在环境变化中的持续学习能力。
Mar, 2023
基于政策梯度定理的深度强化学习中,各种强大的政策梯度算法已被提出。本论文提供了对政策梯度算法的整体概述,旨在促进对其理论基础和实际实现的理解,包括连续版本的政策梯度定理的详细证明、收敛性结果以及对实际算法的全面讨论。通过在连续控制环境中比较最重要的算法并提供正则化的好处方面的见解,进一步加强了对主题的认识。
Jan, 2024
我们提出了一种新的分析方法,并区分了探索技术的两个不同影响。首先,它们使得能够平滑学习目标并消除局部最优解,同时保留全局最优解。其次,它们修改了梯度估计,增加了随机参数更新最终提供最优策略的概率。在这些影响的基础上,我们讨论并通过熵奖励进行了实证研究,突出了其局限性,并为该策略的设计和分析开辟了未来的研究方向。
Jan, 2024
本研究针对深度强化学习(DRL)中探索效率不足的问题,提出了一种新颖的贝叶斯演员-评论家算法,旨在提升环境的有效探索能力。通过理论研究和实证评估,证明该方法在标准基准和先进评估套件上的优越性,预计将为强化学习社区提供重要的工具和基础。
Aug, 2024
本研究解决了深度强化学习中由于非平稳性导致的价值和策略预测波动的问题。我们提出了一种新方法“Churn Approximated ReductIoN (CHAIN)”,旨在减少这种波动链效应,从而提高学习表现。实验显示,该方法在多种强化学习设置中均有效降低了波动并提升了性能。
Sep, 2024