本文介绍了通过有选择地加强或减弱不同时间步骤的更新来改善参数化时序差分学习算法的性能,并且提出了一种新的增强 TD (λ) 算法,相较于之前的方法,它更简单易用,只有一个学习参数向量和一个步长参数,含有状态相关折扣函数和自举函数,并且能够根据需要确定不同状态的精确定价程度。
Mar, 2015
该研究概括了近期两个关于强化学习中强调算法的稳定性和收敛性的研究,同时展示了强调算法的灵活性在状态折扣、状态引导和资源分布等方面的经验优势。
Jul, 2015
本文旨在通过使用截断 “随后追踪”(followon traces)的强调式时间差(TD)方法,解决随后追踪在实践中难以使用的大方差问题。与原始的随后追踪不同,截断的随后追踪仅依赖于有限的历史数据,从而减少方差,并使我们提出的强调式 TD 方法在预测和控制问题上进行有限样本分析
Aug, 2021
本文提出了一种基于稳态分布概率的重要性重排经验的 TD 学习方法,使用无需概率密度函数的估算器来指定优先级权重,将此方法应用于两种竞争性强的学习算法(软演员 - 评论家(SAC)和 Twin Delayed 深度确定性策略梯度(TD3)),在一系列 OpenAI gym 任务中实现了比其他基线方法更高的样本复杂度。
Jun, 2020
本文研究了在带有有限状态的折扣马尔可夫决策过程中对策略进行强调时间差分学习的算法。我们提出了 ELSTD(λ)和 ETD(λ)的首个收敛性证明,并针对一般的离线策略研究了 ELSTD(λ)迭代的 $L^1$ 收敛和使用单个无限长轨迹计算的近似值函数的两种算法的几乎必然收敛性。
Jun, 2015
本文提出了一种广义的基于强化学习的离线评估算法,该算法可以控制一个重要性采样因子的衰减速度,并研究了其收敛和精度属性。
Sep, 2015
提出一种直接解决双重采样问题的方法,通过在逐渐增大的马尔可夫数据流中使用两个样本,该算法在计算上与 Gradient Temporal Difference (GTD) 一样高效,但摆脱了 GTD 的额外权重,而唯一的代价是随着时间的推移,存储空间呈对数增长。
Aug, 2023
本文探讨了强化学习中,奖励分布呈现重尾分布时,采用动态梯度裁剪机制的 TD 学习和 NAC 方法能够应对此类问题,论证了采用动态梯度裁剪机制的 TD 学习可在偏置和随机梯度变化之间实现有利的权衡,对于一些 p(0<p<=1),都以期望和高的概率下 finie moment(1+p)的重尾收益实现样本复杂度,同时 Robust TD 学习具有相同的特征。
Jun, 2023
本文分析了在线性函数逼近、离策略学习和自举的 “致命三角” 场景中的多步 TD 学习算法,并证明了当采样周期 n 足够大时,n 步 TD 学习算法收敛到一个解。基于这些发现,提出并分析了两种 n 步 TD 学习算法,这些算法可以视为梯度和控制理论算法的无模型强化学习对应物。
Feb, 2024
本文提出了第一个适用于 off-policy learning 的 policy gradient 定理,并通过使用 emphatic weightings 导出了简化的梯度公式,并使用 Actor Critic with Emphatic weightings (ACE) 算法验证了该定理的正确性。
Nov, 2018