非策略分布 Q ($λ$): 无重要性抽样的分布式强化学习

Feb, 2024

非策略分布 Q ($λ$): 无重要性抽样的分布式强化学习

Off-policy Distributional Q($λ$): Distributional RL without Importance Sampling

Yunhao Tang, Mark Rowland, Rémi Munos, Bernardo Ávila Pires, Will Dabney

TL;DR介绍了一种新的离线策略分布式 Q (λ) 评估算法，它与已有的算法不同之处在于不使用重要性抽样，并且在与符号测度的交互过程中具有独特的性质。通过表格实验验证了分布式 Q (λ) 的算法性质和理论洞见的有效性，并展示了将 Q (λ) 与 C51 代理相结合的分布式 Q (λ)-C51 在深度 RL 基准测试中取得的有希望的结果。

Abstract

We introduce off-policy distributional Q($\lambda$), a new addition to the family of off-policy distributional evaluation algorithms. Off-policy distributional Q($\lambda$) does not apply importance sampling for off-policy learning, which introduces intriguing interactions with

off-policy distributional q(λ)importance sampling signed measures distributional retrace deep rl benchmarks

发现论文，激发创造

无需重要性采样的 Actor-Critic 方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

带离线修正的 Q ($λ$)

这篇论文提出和分析了一种替代的离线多步时间差异学习方法，在其中离线返回校正与当前的 Q 函数以奖励形式相关，而不是与目标策略以转换概率相关，证明了这种近似校正在离线评估和控制中足以实现离线收敛条件，并对连续状态控制任务进行了理论关系的实证。

Feb, 2016

安全高效的离线策略强化学习

该研究针对基于返回值的离策略学习算法进行重新学习，提出了一种名为 Retrace (lambda) 的新算法，该算法具有低方差、安全、高效等三种性质，并能在无 GLIE 假设的情况下收敛。最终将 Retrace (lambda) 应用于 Atari 2600 游戏数据中并验证了其有效性。

Jun, 2016

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017

适用于非政策评估的极大极小权重和 Q 函数学习

本文探讨了强化学习中的离线评估问题，提出了两种新的重要比率估计器，并给出了样本复杂度分析和渐进优化等结果。

Oct, 2019

隐式分位数网络用于分布式强化学习

本文介绍了一种基于分布式强化学习的方法，通过使用分位回归来逼近状态 - 动作回报分布的全量位函数来得到一个灵活、高效且可应用于各种环境的动态规划方法，并通过在 57 个 Atari 2600 游戏中的表现来展示算法的性能，并使用其隐式定义的分布来研究风险敏感性政策在 Atari 游戏中的效果。

Jun, 2018

Q-Prop: 基于离线策略评估器的高效采样策略梯度

本篇论文提出了 Q-Prop，一种结合策略梯度和离线强化学习的深度强化学习方法，该方法具有高效和稳定的特性，并在 OpenAI Gym's MuJoCo 连续控制环境上取得了比现有算法更好的性能。

Nov, 2016

分布式强化学习全参数分位函数

本文提出了一种新的分布式强化学习算法，该算法采用完全参数化分位函数，通过参数化分位函数的分位数量轴和值轴来更好地估计连续分布，并在 Atar 游戏环境中得到了前所未有的表现。

Nov, 2019

离线增强学习与在线策略 Q 函数规范化

提出了两种算法，利用行为策略的 Q 函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差，该方法在 D4RL 基准测试中表现出良好的性能。

Jul, 2023

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021