在线和近似强化学习中的多步贪心策略

NIPSMay, 2018

在线和近似强化学习中的多步贪心策略

Multiple-Step Greedy Policies in Online and Approximate Reinforcement Learning

Yonathan Efroni, Gal Dalal, Bruno Scherrer, Shie Mannor

TL;DR本文研究了使用多步贪婪算法的实际应用，发现在软策略更新时，只有更新步长足够大，才能保证单调策略改进，提出了组合在线和近似算法。

Abstract

Multiple-step lookahead policies have demonstrated high empirical competence in reinforcement learning, via the use of monte carlo tree search or Model Predictive Control. In a recent work \cite{efroni2018beyond}

reinforcement learning monte carlo tree search model predictive control policy iteration multi-step greedy algorithms

发现论文，激发创造

强化学习中超越单步贪心方法

本文研究了改进策略和评估策略之间交替的着名 Policy Iteration 算法，以及其变体中多步向前的政策改进，形成了多步政策改进的变量，导出了新的算法并证明了其收敛性。此外，文章还展示了近期著名的强化学习算法实际上是我们框架的实例，阐明了它们的经验成功，为未来研究提供了推导新算法的方法。

Feb, 2018

多步贪心强化学习算法

本篇论文探讨了基于多步贪婪策略在模型无关强化学习中的优势，并提出了基于 $\kappa$-Policy Iteration 和 $\kappa$-Value Iteration 的模型无关强化学习算法。通过实验表明这些算法对于某些任务的表现优于传统的强化学习算法如 DQN 和 TRPO。

Oct, 2019

基于模型的强化学习中贪心策略的严格遗憾界

本文聚焦在有限状态有限时间的马尔科夫决策过程设置下的模型基 RL，证明了探索具有贪心策略可以实现紧密的极小极大性能，从而完全避免使用 full-planning，而复杂度降为 S，并通过实时动态规划进行了新颖的分析。

May, 2019

基于策略迭代和蒙特卡罗策略评估的强化学习收敛性

本文提出解决一种强化学习中的长期悬而未决的问题，通过使用前瞻而非简单的贪心策略迭代来提高策略，同时在表格和函数逼近设置中都提供了结果。我们证明了这种策略迭代方案收敛于最优策略。

Jan, 2023

$ε$- 在线定价的策略梯度

该研究论文结合了基于模型和基于模型的强化学习方法，提出并分析了一种用于在线定价学习任务的 ε- 策略梯度算法。该算法通过将贪婪的利用替换为梯度下降步骤，并通过模型推理来促进学习。通过量化探索概率 ε 的探索成本和梯度下降优化和梯度估计错误的利用成本，优化了所提出算法的遗憾。该算法在 T 次试验中达到了 O (√T)（乘以一个对数因子）的预期遗憾。

May, 2024

偏差弹性多步离策略目标条件强化学习

通过解决多步 GCRL 中的偏差问题，本文提出了一种方法来提高学习效率，并在实证研究中证明该方法在十步学习场景下能够优于基线和多步 GCRL 的几个先进模型。

Nov, 2023

如何在强化学习中结合树搜索方法

研究了强化学习中的有限时间先见策略，提出使用树路径回报备份根节点后代的值来增强现有方法，以解决值函数传播不收缩的问题。

Sep, 2018

何时信任你的模型：基于模型的策略优化

本文研究模型在强化学习算法中的使用，旨在解决生成数据的容易程度与模型生成数据的偏差之间的平衡问题。作者提出了一种基于模型的强化学习算法，并探讨了模型在策略优化中的作用。实践中，作者发现模型生成的在线策略数据总是不如真实的离线数据。然而，通过将模型泛化能力的经验估计纳入到分析中，可以证明模型的使用是合理的。最后，作者展示了一种简单的方法，使用从真实数据中分支的短模型生成滚动数据，具有比其他基于模型的方法更好的样本效率，可以匹配最佳无模型算法的渐近性能，并能处理其它基于模型的算法不能处理的问题。

Jun, 2019

稀缺经验学习

使用似然比估计的一族算法在估计和优化阶段利用经验数据来优化策略，从而更高效地解决部分可观察的强化学习问题，该算法在实验中表现良好。

Apr, 2002

基于模型的强化学习模型 —— 使用多步计划价值评估

本文提出了一种新的基于模型的强化学习算法 MPPVE（Model-based Planning Policy Learning with Multi-step Plan Value Estimation），通过引入多步计划来替换多步行动，采用多步计划价值估计来更新政策，从而更好地利用学习到的模型，实现比现有基于模型的强化学习方法更好的样本效率。

Sep, 2022