引导协变移位进行深度强化学习的离线策略

AAAIJan, 2019

Off-Policy Deep Reinforcement Learning by Bootstrapping the Covariate Shift

Carles Gelada, Marc G. Bellemare

TL;DR本文介绍了一种针对强化学习中离线学习的校正方法（COP-TD），并通过引入折扣因子解决了非线性函数近似中的问题，进一步分析了折扣 COP-TD 并提出了一种在线的软归一化惩罚，此方法在 Atari 视频游戏中比软归一化惩罚取得了更好的实际效果。

Abstract

In this paper we revisit the method of off-policy corrections for reinforcement learning (cop-td) pioneered by Hallak et al. (2017). Under

发现论文，激发创造

本文提出了一种称为 COP-TD（λ，β）的算法，该算法可以提高在线行为评估（OPE）的表现，减少偏差，并消除行为和目标策略之间的差异，并且在应用函数近似时收敛到与使用 lambda 策略相同的结果。同时，这个算法也和已有算法相比取得了更好的结果。

Feb, 2017

本文提出了一种新的 $l_1$ 正则化的离策略收敛 TD 学习方法（称为 RO-TD），能够以较低的计算复杂度学习值函数的稀疏表示，并且具有在线凸正则化的特征选择能力。详细的理论和实验分析表明该算法具有离策略收敛、稀疏特征选择能力和低计算成本。

Jun, 2020

该论文提出了一种新的家族离线预测算法，通过构建一系列价值函数来实现稳定的模型迭代，算法收敛且可以有效的处理离线强化学习过程中的问题。

Jan, 2022

研究在线预测学习的问题，讨论利用新的目标函数进行的非固定、非线性函数近似的脱机学习的关键技能，提供了两个具有挑战性的微观世界中的实证研究结果，总结了脱机学习的相关方法，提供了新的见解，使从业者能够成功应用于大规模应用。

Nov, 2018

本文研究了强化学习中的一个重要问题，即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测，我们提出了一种基于在线学习的算法，通过引入惩罚项确保迭代的收敛性，并通过数值实验验证了算法的有效性。

Nov, 2019

混合符号奖励环境中，重新考虑原有策略更新方法的安全性，通过解决数值估计误差的问题和不显式地最大化 Q 值的方法，提出了新的离策略演员 - 评论家方法，以提高深度强化学习算法在连续动作空间中的学习效果。

Nov, 2023

本文研究了在平均奖励 MDP 中具有函数逼近的异策略策略评估问题，提出了两种新算法来解决德雷德三元组问题，这是首个求解微分值函数的收敛离线线性函数逼近算法，同时也是首个无需估计密度比的收敛离线线性函数逼近算法，并在简单域和挑战的机器人仿真任务中进行了经验证明。

Jan, 2021

本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法（包括 GTD 和 TDC）的统一视角，并提出了一种基于后掠技术的新的收敛算法，最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。

Feb, 2023

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

这篇论文提出和分析了一种替代的离线多步时间差异学习方法，在其中离线返回校正与当前的 Q 函数以奖励形式相关，而不是与目标策略以转换概率相关，证明了这种近似校正在离线评估和控制中足以实现离线收敛条件，并对连续状态控制任务进行了理论关系的实证。

Feb, 2016