td learning | BriefGPT - AI 论文速递

关键词td learning

搜索结果 - 7

消除时序差异学习中的最新性启发式的神秘
采用时间性启发式在时间差分学习中执行信用分配会导致较快的收敛速率、长的有效信用分配窗口以及有界的最坏情况方差，这为基于时间性启发式的学习提供了一些理论证据。
PDF18 days ago
用于无模型强化学习的多状态 TD 目标
提出了一种基于增强的多状态 TD 目标的完整的演员 - 评论家算法，该算法将回放缓冲区管理与深度确定性策略优化和软演员评论家相结合，实验结果表明采用 MSTD 目标的算法相比传统方法显著提高了学习性能。
PDFa month ago
TD 学习与线性函数逼近的简单有限时间分析
TD 学习在马尔可夫采样下，通过线性函数逼近存在有限时间收敛性的研究证明。通过新颖的两步论证方法，我们证明了在常数步长和标准选择下，TD 学习生成的迭代在期望上保持统一有界。这种方法大大简化了现有证明，并推测我们归纳证明技术将在更复杂的随机
PDF4 months ago
离线强化学习通过监督学习的必要条件是什么？
离线强化学习中的监督学习方法及其必要算法组件已被证明可以达到与基于 TD 学习或序列建模的复杂方法相当的高效性；如何选择模型容量和条件信息（例如目标或奖励）可以对性能产生至关重要的影响，这提供了对 RvS 学习从业者的指南。
PDF3 years ago
一种收敛的离策略时序差分算法
本文研究了强化学习中的一个重要问题，即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测，我们提出了一种基于在线学习的算法，通过引入惩罚项确保迭代的收敛性，并通过数值实验验证了算法的有效性。
PDF5 years ago
NIPSTIDBD: 通过随机元下降调整时间差步长
本文介绍了一种适应性时间差分（TD）学习步幅的方法，该方法基于 “增量 Delta-Bar-Delta” 的思想，能够自适应地针对不同的任务和特征设置步幅，实现表征学习，在预测任务中取得了比传统 TD 和其他自适应步幅算法更好的性能。
PDF6 years ago
分布式强化学习的原始对偶算法：分布式 GTD
研究分布式版本的梯度时差分 (GTD) 学习算法，应用于多代理马尔可夫决策过程 (MDPs) 中。通过将问题转化为带有共识约束的约束凸优化问题，并提出原始 - 对偶分布式 GTD 算法，以证明其几乎必定收敛于优化问题的一组静止点。
PDF6 years ago