多阶段强化学习：一个统一的算法

Mar, 2017

多阶段强化学习：一个统一的算法

Multi-step Reinforcement Learning: A Unifying Algorithm

Kristopher De Asis, J. Fernando Hernandez-Garcia, G. Zacharias Holland, Richard S. Sutton

TL;DR本文研究了一种新的多步行动值算法 $Q(\sigma)$，它统一和概括了现有的算法，在包含它们的情况下将它们作为特殊情况。我们引入了一个新参数 $\sigma$，它允许在备份过程中每一步算法执行的采样程度连续变化。在实验中，我们发现 $Q(\sigma)$ 的中间值可以在一定程度上取得比纯采样和纯期望更好的性能，并且混合值可以动态变化，从而导致更大的性能提高。

Abstract

Unifying seemingly disparate algorithmic ideas to produce better performing algorithms has been a longstanding goal in reinforcement learning. As a primary example, TD($\lambda$) elegantly unifies one-step TD prediction with Monte Carlo methods through the use of eligibility traces and

发现论文，激发创造

实用的线性时间差分学习研究

本文介绍了两种混合TD策略评估算法，并通过实证比较得出哪种线性TD方法在不同情况下应该优先使用及实际应用的具体建议。

Feb, 2016

强化学习中超越单步贪心方法

本文研究了改进策略和评估策略之间交替的着名Policy Iteration算法，以及其变体中多步向前的政策改进，形成了多步政策改进的变量，导出了新的算法并证明了其收敛性。此外，文章还展示了近期著名的强化学习算法实际上是我们框架的实例，阐明了它们的经验成功，为未来研究提供了推导新算法的方法。

Feb, 2018

在线和近似强化学习中的多步贪心策略

本文研究了使用多步贪婪算法的实际应用，发现在软策略更新时，只有更新步长足够大，才能保证单调策略改进，提出了组合在线和近似算法。

May, 2018

多步深度强化学习的理解：对DQN目标的系统研究

本论文对多步方法在深度强化学习中的表现进行了测试和分析，将包括Retrace和Q-learning等等在内的各种算法与DQN进行比较，在山车环境下进行了许多测试，指出需要注意调整backup length参数和target network更新的频率等细节来提高Q-learning等算法的性能。

Jan, 2019

基于线性函数逼近的SARSA有限样本分析

本文研究了在非独立同分布数据下具有线性函数逼近的 SARSA 算法，并开发了一种新的技术来显式表征随着时间变化的马尔科夫转移核的一类随机逼近过程的随机偏差，从而提供了基于有限样本的 SARSA 算法的均方误差有限样本分析以及配适的 SARSA 算法，后者包括原始 SARSA 算法及其变体，提供了比逐步更新策略迭代更高效的泛化框架。

Feb, 2019

基于模型的强化学习模型——使用多步计划价值评估

本文提出了一种新的基于模型的强化学习算法 MPPVE（Model-based Planning Policy Learning with Multi-step Plan Value Estimation），通过引入多步计划来替换多步行动，采用多步计划价值估计来更新政策，从而更好地利用学习到的模型，实现比现有基于模型的强化学习方法更好的样本效率。

Sep, 2022

Taylor TD-learning

介绍了一种基于模型的强化学习框架 Taylor TD，通过一阶泰勒级数展开 TD 更新来降低 TD-learning 中方差的问题，并在多个基准测试任务中展示了 TaTD3 算法的表现优于多种现有基准算法。

Feb, 2023

模型驱动增强学习中可靠学习动力学的多步损失函数

采用多步目标来训练一步模型，在模型为确定性时，一步模型作为强基线，在存在噪音时，多步模型更具优势，突显了我们方法在实际应用中的潜力。

Feb, 2024

线性函数逼近的离策多步TD学习分析

本文分析了在线性函数逼近、离策略学习和自举的“致命三角”场景中的多步TD学习算法，并证明了当采样周期n足够大时，n步TD学习算法收敛到一个解。基于这些发现，提出并分析了两种n步TD学习算法，这些算法可以视为梯度和控制理论算法的无模型强化学习对应物。

Feb, 2024

高速公路增强学习

学习多步骤离线数据集合的核心问题是强化学习中一项重要的问题。本文提出了一种新的、无IS影响的、多步骤离线方法，通过引入一个名为高速公路门的机制，使得算法能够有效地利用未来较远时刻的信息并收敛到最优值函数。在具有延迟奖励的任务中，我们的新方法超越了许多现有的多步骤离线算法。

May, 2024