- 时序差异学习在罕见事件预测中的令人惊讶的效率
我们定量地评估了强化学习中政策评估的时间差异(TD)学习与直接或蒙特卡罗(MC)估计器的效率,重点在于对罕见事件的相关数量的估计。我们证明了有限状态马尔可夫链中最小二乘 TD(LSTD)预测相较于 MC 能够更有效地实现相对准确性,并且通过 - 用于无模型强化学习的多状态 TD 目标
提出了一种基于增强的多状态 TD 目标的完整的演员 - 评论家算法,该算法将回放缓冲区管理与深度确定性策略优化和软演员评论家相结合,实验结果表明采用 MSTD 目标的算法相比传统方法显著提高了学习性能。
- 基于 Transformer 的上下文强化学习中学习时间差分方法
此研究论文证明了 transformers 模型在前向传播中可以实现时间差异学习(TD learning)以及其他许多策略评估算法,通过使用多任务 TD 算法进行训练,并进行了理论分析。
- 改进的有限时间分析:基于深度神经网络的时差学习
本文基于非线性的动作价值逼近,对具有神经网络函数参数化的时序差异(TD)学习算法进行改进的有限时间分析,得到了一种改进的新的样本复杂度 Ο̃(ε^(-1)),在马尔可夫采样下取得了 Ο̃(ε^(-1)) 的复杂度,相比现有文献中已知的 Ο̃ - 序列压缩加速增强学习中的信用分配
时间差分学习中的时间分配问题是具有挑战性的,本文提出了一种名为 Chunked-TD 的算法,它使用来自模型的预测概率来计算 lambda 回报目标,相对于其他基于模型的解决方案,Chunked-TD 更不容易受到模型的不准确性影响,该算法 - 监督学习的 MRP 公式化:广义时间差异学习模型
该研究提出了一种将数据点视为相互关联的观点,并使用马尔科夫奖励过程(MRP)进行数据建模的统计学习方法。通过引入广义的时序差分(TD)学习算法来重塑传统的有监督学习问题,并与普通最小二乘法(OLS)的解决方案建立联系。同时,该研究还证明了在 - 马尔可夫链中心极限定理的收敛速度及其在 TD 学习中的应用
使用 Stein's 方法证明向量值鞅差的非渐近中心极限定理,并使用泊松方程将结果推广到马尔可夫链的函数领域。然后证明这些结果可应用于建立基于平均的时序差分(TD)学习的非渐近中心极限定理。
- 连续强化学习中的预测与控制
本文提出了将值函数分解为两个组成部分的方法,分别在不同的时间尺度上更新,其中永久性值函数持有随时间持久存在的一般知识,而短暂性值函数允许快速适应新情况,理论结果表明这种方法非常适用于连续学习,并与神经科学中的互补学习系统(CLS)理论建立了 - 神经科学中的强化学习简介
强化学习和神经科学之间存在紧密的联系,本论文通过回顾经典强化学习和介绍现代深度强化学习的方法,以及其在系统神经科学中的应用,阐述了这种联系。
- 辨识时差学习
提出了一种新型的时序差异学习算法(DTD),通过引入灵活的权重分配函数,能够提高值估计并在不同情境中加速学习。
- 时间差异强化学习动力学
本研究使用统计物理学的理论,研究了具有线性函数逼近器的时间差分学习的典型学习曲线。通过对小型马尔可夫决策过程进行验证,发现随机半梯度噪声导致价值误差的显著平台现象,并分析了如何使用学习率退火和奖励塑形等策略促进学习动态和平台的优化。
- C-MCTS:蒙特卡洛树搜索进行安全规划
提出了一种基于 Constrained MCTS 框架的采样式规划算法,使用安全性评论家评估代理的代价,能更有效地满足代价约束条件,且在模型不匹配时更少受到代价违规的影响。
- 通过基于策略的强化学习优化基于拍卖的推荐系统的长期价值
本研究利用强化学习中的时差学习算法优化基于竞拍的推荐系统,实现一步政策改进方法并优先考虑长期用户参与度指标。在处理数十亿次曝光和用户日活跃用户的基于拍卖的推荐系统的在线 A / B 测试中,我们经验性地证明了我们的方法在长期用户参与度指标方 - 通过潜在意图从被动数据中进行强化学习
本文提出了一种基于意图模型和时序差分学习目标的强化学习方法,能够从非动作标签的被动数据中学习状态、策略和环境的可能后果三种表示,为解决后续任务提供了可行的价值预测的特性。
- 强化学习教程介绍
本文介绍了强化学习的概念,重点讲述了随机逼近在其中的作用。文中涵盖了马尔可夫奖励过程、马尔可夫决策过程、随机逼近算法以及广泛使用的算法如时序差分学习和 Q 学习。
- ICML关于时序差分学习的统计优势
本文介绍了使用 TD 方法估计值函数的优势,即使用一种新的度量方法 - 问题的轨迹跨越时间,可以在一定程度上提高两个状态的值差的测量准确性。
- ICML从像素实现稳定的离线 Deep 强化学习
本文提出了一个新的方法 A-LIX,通过提供适应性正则化来防止出现灾难性的自我过度拟合现象,该方法在 DeepMind Control 和 Atari 100k benchmarks 上显著优于之前的最先进方法,而不需要进行数据增强或辅助损 - 启发式搜索通过测试时间获得更快的训练 ——AlphaZero 启发式游戏学习
本文提出了一种 AlphaZero 启发的 MCTS 包装器,将其与时间差异学习智能体相结合,在不需要 GPU 或 TPU 等高性能计算资源的情况下,在多个复杂的游戏中成功打败强劲对手,取得了显著优势。
- 基于时序差分学习的模型预测控制
本文提出了一种称之为 TD-MPC 的新型控制方法,该方法结合了基于模型和基于模型无关的方法。研究结果表明,该方法能够在 DMControl 和 Meta-World 上取得更好的样本效率和渐进性能。
- 广义数据上,具有二次限制的随机线性优化从不过拟合
本文针对线性预测器的迭代定点方法(特别是随机和批量镜像下降法及随机时间差分学习),提供了测试误差界限。主要贡献包括:通过单一证明技巧对收敛和非收敛状态下具有高概率保证的拟合损失进行统一处理,以无需投影、正则化或任何等效手段,适用于具有二次界