政策搅动现象

Jun, 2022

The Phenomenon of Policy Churn

Tom Schaul, André Barreto, John Quan, Georg Ostrovski

TL;DR该研究探讨了政策波动现象在基于价值的强化学习中的出现，并证实了它是深度学习相关的形式探索中一种有益但被忽视的表现。研究还进一步阐述了epsilon-贪心探索在该决策探究中扮演的较小角色。

Abstract

We identify and study the phenomenon of policy churn, that is, the rapid change of the greedy policy in value-based reinforcement learning. polic

发现论文，激发创造

通过探索未被重视的奖励来改进政策梯度

本文提出了一种新颖的无模型强化学习策略梯度算法，采用基于概率的有指导性的探索策略，相比现有熵正则化方法更有效地探索高维度的稀疏奖励空间，并在一系列算法任务上得到了成功的应用。

Nov, 2016

强化学习中超越单步贪心方法

本文研究了改进策略和评估策略之间交替的着名Policy Iteration算法，以及其变体中多步向前的政策改进，形成了多步政策改进的变量，导出了新的算法并证明了其收敛性。此外，文章还展示了近期著名的强化学习算法实际上是我们框架的实例，阐明了它们的经验成功，为未来研究提供了推导新算法的方法。

Feb, 2018

基于特征聚合和深度强化学习的调查与一些新实现

本文介绍了针对有限状态折扣马尔可夫决策问题的近似解法- 政策迭代方法，重点关注基于特征聚合的方法以及它们与深度强化学习方案的关系。本文提出了原问题状态的特征并且制定了一个更小的“聚合”的马尔可夫决策问题，其状态与特征相关。我们讨论了这种聚合的性质和可能的实现，其中包括一种利用深度神经网络或其他计算进行特征构建的新近似政策迭代方法。我们认为，通过聚合提供的特征的非线性函数比神经网络强化学习提供的特征的线性函数更能够准确地逼近策略的成本函数，从而潜在地导致更有效的政策改进。

Apr, 2018

基于状态抽象的近似探索

研究强化学习中探索和近似之间的相互作用，提出一种基于密度建模的方法来改善探索，探讨伪计数奖励在此方法中的应用，发现了在其应用中可能存在的过度或不足探索问题，并提出一种新的伪计数奖励来缓解这些问题。

Aug, 2018

深度强化学习中的优先偏差

本文研究了深度强化学习算法中的优先性偏差问题，提出了一种简单且通用的机制来解决这个问题，并将其应用于离散和连续动作领域的算法中，从而显著提高了它们的性能。

May, 2022

持续深度强化学习中的可塑性丧失

探讨在Atari 2600游戏环境中使用基于价值的强化学习方法在面对不同程度的非随机性（non-stationarity）时，其所采用的策略的丧失学习能力现象，通过对不同维度条件下的实验结果，发现这种现象与网络中激活函数的稀疏性相关，本文提出的嵌入化ReLU(CReLUs)激活函数可以有效提高在环境变化中的持续学习能力。

Mar, 2023

深度强化学习中的政策梯度综合指南：理论、算法与实现

基于政策梯度定理的深度强化学习中，各种强大的政策梯度算法已被提出。本论文提供了对政策梯度算法的整体概述，旨在促进对其理论基础和实际实现的理解，包括连续版本的政策梯度定理的详细证明、收敛性结果以及对实际算法的全面讨论。通过在连续控制环境中比较最重要的算法并提供正则化的好处方面的见解，进一步加强了对主题的认识。

Jan, 2024

政策梯度背后的探索神话

我们提出了一种新的分析方法，并区分了探索技术的两个不同影响。首先，它们使得能够平滑学习目标并消除局部最优解，同时保留全局最优解。其次，它们修改了梯度估计，增加了随机参数更新最终提供最优策略的概率。在这些影响的基础上，我们讨论并通过熵奖励进行了实证研究，突出了其局限性，并为该策略的设计和分析开辟了未来的研究方向。

Jan, 2024

深度强化学习中的高效探索：一种新颖的贝叶斯演员-评论家算法

本研究针对深度强化学习（DRL）中探索效率不足的问题，提出了一种新颖的贝叶斯演员-评论家算法，旨在提升环境的有效探索能力。通过理论研究和实证评估，证明该方法在标准基准和先进评估套件上的优越性，预计将为强化学习社区提供重要的工具和基础。

Aug, 2024

通过减少价值和策略波动的链效应来改善深度强化学习

本研究解决了深度强化学习中由于非平稳性导致的价值和策略预测波动的问题。我们提出了一种新方法“Churn Approximated ReductIoN (CHAIN)”，旨在减少这种波动链效应，从而提高学习表现。实验显示，该方法在多种强化学习设置中均有效降低了波动并提升了性能。

Sep, 2024