深度强化学习的期望强调痕迹学习

Jul, 2021

深度强化学习的期望强调痕迹学习

Learning Expected Emphatic Traces for Deep RL

Ray Jiang, Shangtong Zhang, Veronica Chelu, Adam White, Hado van Hasselt

TL;DR本文研究将强化权重与非连续、离线数据相结合以提高样本效率，同时在 Atari 2600 电子游戏上测试了新的 X-ETD（n）算法，证明了其可扩展性和广泛适用性。

Abstract

off-policy sampling and experience replay are key for improving sample efficiency and scaling model-free temporal difference learning methods. When combined with function approximation, such as neural networks, t

off-policy sampling experience replay emphatic weightings multi-step updates atari 2600 video games

发现论文，激发创造

一种强调的离线时序差分学习方法

本文介绍了通过有选择地加强或减弱不同时间步骤的更新来改善参数化时序差分学习算法的性能，并且提出了一种新的增强 TD (λ) 算法，相较于之前的方法，它更简单易用，只有一个学习参数向量和一个步长参数，含有状态相关折扣函数和自举函数，并且能够根据需要确定不同状态的精确定价程度。

Mar, 2015

强调时序差分学习

该研究概括了近期两个关于强化学习中强调算法的稳定性和收敛性的研究，同时展示了强调算法的灵活性在状态折扣、状态引导和资源分布等方面的经验优势。

Jul, 2015

截断强调时间差异方法在预测和控制中的应用

本文旨在通过使用截断 “随后追踪”（followon traces）的强调式时间差（TD）方法，解决随后追踪在实践中难以使用的大方差问题。与原始的随后追踪不同，截断的随后追踪仅依赖于有限的历史数据，从而减少方差，并使我们提出的强调式 TD 方法在预测和控制问题上进行有限样本分析

Aug, 2021

使用无似然权重的经验回放

本文提出了一种基于稳态分布概率的重要性重排经验的 TD 学习方法，使用无需概率密度函数的估算器来指定优先级权重，将此方法应用于两种竞争性强的学习算法（软演员 - 评论家（SAC）和 Twin Delayed 深度确定性策略梯度（TD3）），在一系列 OpenAI gym 任务中实现了比其他基线方法更高的样本复杂度。

Jun, 2020

强调时间差分学习的收敛性

本文研究了在带有有限状态的折扣马尔可夫决策过程中对策略进行强调时间差分学习的算法。我们提出了 ELSTD（λ）和 ETD（λ）的首个收敛性证明，并针对一般的离线策略研究了 ELSTD（λ）迭代的 $L^1$ 收敛和使用单个无限长轨迹计算的近似值函数的两种算法的几乎必然收敛性。

Jun, 2015

广义强化时间差分学习：偏差 - 方差分析

本文提出了一种广义的基于强化学习的离线评估算法，该算法可以控制一个重要性采样因子的衰减速度，并研究了其收敛和精度属性。

Sep, 2015

直接梯度时差学习

提出一种直接解决双重采样问题的方法，通过在逐渐增大的马尔可夫数据流中使用两个样本，该算法在计算上与 Gradient Temporal Difference (GTD) 一样高效，但摆脱了 GTD 的额外权重，而唯一的代价是随着时间的推移，存储空间呈对数增长。

Aug, 2023

面向重尾奖励的可证明鲁棒时序差分学习

本文探讨了强化学习中，奖励分布呈现重尾分布时，采用动态梯度裁剪机制的 TD 学习和 NAC 方法能够应对此类问题，论证了采用动态梯度裁剪机制的 TD 学习可在偏置和随机梯度变化之间实现有利的权衡，对于一些 p（0<p<=1），都以期望和高的概率下 finie moment（1+p）的重尾收益实现样本复杂度，同时 Robust TD 学习具有相同的特征。

Jun, 2023

线性函数逼近的离策多步 TD 学习分析

本文分析了在线性函数逼近、离策略学习和自举的 “致命三角” 场景中的多步 TD 学习算法，并证明了当采样周期 n 足够大时，n 步 TD 学习算法收敛到一个解。基于这些发现，提出并分析了两种 n 步 TD 学习算法，这些算法可以视为梯度和控制理论算法的无模型强化学习对应物。

Feb, 2024

使用强调加权的离线策略梯度定理

本文提出了第一个适用于 off-policy learning 的 policy gradient 定理，并通过使用 emphatic weightings 导出了简化的梯度公式，并使用 Actor Critic with Emphatic weightings (ACE) 算法验证了该定理的正确性。

Nov, 2018