本文探讨强化学习算法中的 TD Learning 和基础节疤核在强化学习中的作用,使用计算机模拟来验证利用稀疏的联合表示来学习在特定环境下获得预期奖励的好处。
Sep, 2019
本研究使用统计物理学的理论,研究了具有线性函数逼近器的时间差分学习的典型学习曲线。通过对小型马尔可夫决策过程进行验证,发现随机半梯度噪声导致价值误差的显著平台现象,并分析了如何使用学习率退火和奖励塑形等策略促进学习动态和平台的优化。
Jul, 2023
在 TD 学习中,提出一种重新加权状态的方法,在更新方程中考虑到其重要性和价值估计的可靠性,证明此方法在线性函数逼近下收敛,并在实验中与其他 TD 方法进行比较。
Jun, 2021
本文研究强化学习中函数逼近不稳定的问题,提出了一种基于状态表示学习的解决方案,分析 transition matrix、proto-value functions、krylov subspace 等方案的适用范围与稳定性,并通过实验验证了可以使用随机梯度下降学习这种可靠的状态表示,从而提高深度网络对强化学习的表示学习技巧。
Jul, 2020
介绍了一种基于模型的强化学习框架 Taylor TD,通过一阶泰勒级数展开 TD 更新来降低 TD-learning 中方差的问题,并在多个基准测试任务中展示了 TaTD3 算法的表现优于多种现有基准算法。
Feb, 2023
提出了一种新型的时序差异学习算法(DTD),通过引入灵活的权重分配函数,能够提高值估计并在不同情境中加速学习。
Oct, 2023
本文介绍了使用 TD 方法估计值函数的优势,即使用一种新的度量方法 - 问题的轨迹跨越时间,可以在一定程度上提高两个状态的值差的测量准确性。
Jan, 2023
本文提出了将值函数分解为两个组成部分的方法,分别在不同的时间尺度上更新,其中永久性值函数持有随时间持久存在的一般知识,而短暂性值函数允许快速适应新情况,理论结果表明这种方法非常适用于连续学习,并与神经科学中的互补学习系统(CLS)理论建立了联系,实证结果表明该方法在预测和控制问题上显著提高性能。
Dec, 2023
提出了一种基于增强的多状态 TD 目标的完整的演员 - 评论家算法,该算法将回放缓冲区管理与深度确定性策略优化和软演员评论家相结合,实验结果表明采用 MSTD 目标的算法相比传统方法显著提高了学习性能。
May, 2024
本篇研究探讨了自预测学习的学习动态,通过对优化动态的设计,提出了双向自学习算法,并通过一系列实验验证了该算法的有效性。
Dec, 2022