该论文研究了非政策时间差异学习在折扣马尔可夫决策过程中的应用,提出了一种新的基于广义 Bellman 方程设置 λ- 参数的方案来控制偏差,通过马尔科夫链理论证明了该方案的收敛性并分析了其在最小二乘实现中的收敛性。
Apr, 2017
在 TD 学习中,提出一种重新加权状态的方法,在更新方程中考虑到其重要性和价值估计的可靠性,证明此方法在线性函数逼近下收敛,并在实验中与其他 TD 方法进行比较。
Jun, 2021
本研究使用统计物理学的理论,研究了具有线性函数逼近器的时间差分学习的典型学习曲线。通过对小型马尔可夫决策过程进行验证,发现随机半梯度噪声导致价值误差的显著平台现象,并分析了如何使用学习率退火和奖励塑形等策略促进学习动态和平台的优化。
Jul, 2023
本文介绍了通过有选择地加强或减弱不同时间步骤的更新来改善参数化时序差分学习算法的性能,并且提出了一种新的增强 TD (λ) 算法,相较于之前的方法,它更简单易用,只有一个学习参数向量和一个步长参数,含有状态相关折扣函数和自举函数,并且能够根据需要确定不同状态的精确定价程度。
Mar, 2015
本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析,研究它在强化学习中的适用性,分析结果适用于 TD(λ)学习和应用于高维度最佳停止问题的 Q-learning。
Jun, 2018
本文介绍了使用 TD 方法估计值函数的优势,即使用一种新的度量方法 - 问题的轨迹跨越时间,可以在一定程度上提高两个状态的值差的测量准确性。
Jan, 2023
提出了一种新型的时序差异学习算法(DTD),通过引入灵活的权重分配函数,能够提高值估计并在不同情境中加速学习。
Oct, 2023
本文提出了一种新的目标函数来优化 lambda,使用基于状态而不是时间的线性复杂度的增量式 lambda 适应算法,并在三个不同的环境中进行了实验,这些贡献是针对在现实世界问题中运用时间差异学习方法的具体步骤。
Jul, 2016
介绍了一种基于模型的强化学习框架 Taylor TD,通过一阶泰勒级数展开 TD 更新来降低 TD-learning 中方差的问题,并在多个基准测试任务中展示了 TaTD3 算法的表现优于多种现有基准算法。
Feb, 2023
本文研究了使用时差学习算法评估连续时间进程的策略评估问题,并根据随机微分方程的时间离散化来学习连续值函数。通过为差分学习提供零均值修正,我们提出了一种鲁棒的算法,包括两种算法:一种是基于模型的算法,另一种是基于无模型的算法,其收敛性得到了证明。此外,该方法还可用于机器学习中求解非发散二阶椭圆方程的问题。
Feb, 2022