安全高效的离线策略强化学习

Jun, 2016

Safe and Efficient Off-Policy Reinforcement Learning

Rémi Munos, Tom Stepleton, Anna Harutyunyan, Marc G. Bellemare

TL;DR该研究针对基于返回值的离策略学习算法进行重新学习，提出了一种名为 Retrace (lambda) 的新算法，该算法具有低方差、安全、高效等三种性质，并能在无 GLIE 假设的情况下收敛。最终将 Retrace (lambda) 应用于 Atari 2600 游戏数据中并验证了其有效性。

Abstract

In this work, we take a fresh look at some old and new algorithms for off-policy, return-based reinforcement learning. Expressing these in a common form, we derive a novel algorithm, Retrace($\lambda$), with thre

off-policy reinforcement learning retrace(lambda)variance behavior policy

发现论文，激发创造

非策略分布 Q ($λ$): 无重要性抽样的分布式强化学习

介绍了一种新的离线策略分布式 Q (λ) 评估算法，它与已有的算法不同之处在于不使用重要性抽样，并且在与符号测度的交互过程中具有独特的性质。通过表格实验验证了分布式 Q (λ) 的算法性质和理论洞见的有效性，并展示了将 Q (λ) 与 C51 代理相结合的分布式 Q (λ)-C51 在深度 RL 基准测试中取得的有希望的结果。

Feb, 2024

带函数逼近的收敛树备份和 Retrace 方法

该论文通过分析 extsc {Tree Backup} 和 extsc {Retrace} 算法在线性函数逼近下的不稳定性，提出了一种基于二次凸凹鞍点公式的稳定高效梯度下降算法，并证明了其收敛性和有限样本上界，同时还提供了对其他算法收敛速度的新证明。

May, 2017

带离线修正的 Q ($λ$)

这篇论文提出和分析了一种替代的离线多步时间差异学习方法，在其中离线返回校正与当前的 Q 函数以奖励形式相关，而不是与目标策略以转换概率相关，证明了这种近似校正在离线评估和控制中足以实现离线收敛条件，并对连续状态控制任务进行了理论关系的实证。

Feb, 2016

通过离线策略评估的保守探索策略优化

为了在现实世界的系统中部署一种强化学习代理，必须对学习过程提供保证。我们研究了保守型探索问题，在此问题中，学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术，通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限，并且展示了在学习过程中从未违反保守约束条件的（高概率）证明。最后，我们利用这些见解，通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。

Dec, 2023

多阶段强化学习：一个统一的算法

本文研究了一种新的多步行动值算法 $Q (\sigma)$，它统一和概括了现有的算法，在包含它们的情况下将它们作为特殊情况。我们引入了一个新参数 $\sigma$，它允许在备份过程中每一步算法执行的采样程度连续变化。在实验中，我们发现 $Q (\sigma)$ 的中间值可以在一定程度上取得比纯采样和纯期望更好的性能，并且混合值可以动态变化，从而导致更大的性能提高。

Mar, 2017

具有资格追踪的离线学习：一份调查报告

采用资格追踪技术对现有算法进行了系统的改进，并提出了新的扩展算法，比较实验结果表明标准的 on-policy 和 off-policy LSTD（λ）/LSPE（λ）算法以及如果特征空间维度太大不能使用最小二乘法则选择 TD（λ）算法最佳。

Apr, 2013

高效的离线安全强化学习：使用信任区域条件风险

本论文提出了一种基于风险约束的安全强化学习方法，并通过引入适应性信任区约束以减少分布偏移的影响，解决了在复杂环境中实现优异性能并快速满足安全约束的问题。

Dec, 2023

Q-Prop: 基于离线策略评估器的高效采样策略梯度

本篇论文提出了 Q-Prop，一种结合策略梯度和离线强化学习的深度强化学习方法，该方法具有高效和稳定的特性，并在 OpenAI Gym's MuJoCo 连续控制环境上取得了比现有算法更好的性能。

Nov, 2016

多步深度强化学习的理解：对 DQN 目标的系统研究

本论文对多步方法在深度强化学习中的表现进行了测试和分析，将包括 Retrace 和 Q-learning 等等在内的各种算法与 DQN 进行比较，在山车环境下进行了许多测试，指出需要注意调整 backup length 参数和 target network 更新的频率等细节来提高 Q-learning 等算法的性能。

Jan, 2019

使用 REINFORCE 的高效样本强化学习

研究了 RL 中的 policy gradient methods，建立了 REINFORCE 算法的全局收敛理论，围绕梯度估计和采样效率等方面进行了研究。

Oct, 2020