本文研究了在带有有限状态的折扣马尔可夫决策过程中对策略进行强调时间差分学习的算法。我们提出了 ELSTD(λ)和 ETD(λ)的首个收敛性证明,并针对一般的离线策略研究了 ELSTD(λ)迭代的 $L^1$ 收敛和使用单个无限长轨迹计算的近似值函数的两种算法的几乎必然收敛性。
Jun, 2015
本文首次实证研究了强调时间差分学习算法(ETD)在 Mountain Car 问题的使用,对比标准的时间差分学习算法,比如线性 TD(0),研究表明在 on-policy 和 off-policy 两种情况下,ETD 算法的收敛效果更好。
May, 2017
本文提出了一种新的 ETD 方法 PER-ETD,通过每次评估参数的迭代周期内重启和更新后续跟踪,采用对数增长的设计来保证方差和偏差之间的最佳权衡,并保持两者亚线性消失,实现了与 ETD 相同的理想固定点收敛,但改善了 ETD 的指数样本复杂度为多项式级别,实验证明 PER-ETD 具有优越性能和优势。
Oct, 2021
本文介绍了通过有选择地加强或减弱不同时间步骤的更新来改善参数化时序差分学习算法的性能,并且提出了一种新的增强 TD (λ) 算法,相较于之前的方法,它更简单易用,只有一个学习参数向量和一个步长参数,含有状态相关折扣函数和自举函数,并且能够根据需要确定不同状态的精确定价程度。
Mar, 2015
评估折扣马尔可夫决策过程中,使用线性函数逼近的时序差异 (TD) 方法的性能限界,我们证明,使用通用且独立于实例的步长算法,结合 Polyak-Ruppert 尾部平均,可以获得接近最优的方差和偏差项,同时给出了相应的样本复杂性限界。
Oct, 2023
该论文研究了非政策时间差异学习在折扣马尔可夫决策过程中的应用,提出了一种新的基于广义 Bellman 方程设置 λ- 参数的方案来控制偏差,通过马尔科夫链理论证明了该方案的收敛性并分析了其在最小二乘实现中的收敛性。
Apr, 2017
本文研究分布增强学习中的分布策略评估问题,并提出了非参数分布时序差分算法 (NTD) 来分析其有限样本性能,通过理论分析得出了 NTD 算法的迭代次数和估计误差之间的关系,同时也证明了 Categorical Temporal Difference Algorithm (CTD) 在 $p$-Wasserstein 距离下具有非渐近收敛性。
Mar, 2024
该研究概括了近期两个关于强化学习中强调算法的稳定性和收敛性的研究,同时展示了强调算法的灵活性在状态折扣、状态引导和资源分布等方面的经验优势。
Jul, 2015
本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法,并针对几个基于梯度的 TD 算法提出了一组收敛性结果。
Dec, 2017
通过引入变量缩减形式的随机逼近,本研究提出了一种实例依赖的策略评估算法,并在非渐近条件下实现了优化性能,同时在理论上证明了其优越性。
Mar, 2020