- 折扣马尔可夫决策过程中均值方差的时限差异学习有限时间分析
针对折扣奖励马尔可夫决策过程(MDP)中方差的策略评估问题,我们推导了有限样本界限,该界限在均方差意义上成立,并在使用 / 不使用正则化的尾值迭代平均值时具有高概率,而且误差的初始衰减呈指数衰减,总界限为 $O (1/t)$,其中 $t$ - 贝尔特反例已解决:附带两个时间尺度算法调试示例
针对 Baird 反例问题,研究解决了 TD 算法在该问题上发散以及收敛速度缓慢的问题,并提出了具有收敛保证和快速收敛率的算法解决了 Baird 反例问题。
- 一种神经形态学架构用于基于实数观测的强化学习
该论文提出了一种新颖的脉冲神经网络 (SNN) 架构,用于解决具有实值观测的强化学习问题,该模型结合了多层事件驱动聚类、时序差分误差调节和资格迹,通过消融实验验证了这些组件对模型性能的显著影响,该网络在经典的强化学习环境中始终优于基于表格的 - 几乎没有通信的分布式 TD (0)
本文提出了一种新的分布式时间差异学习方法,该方法采用 “一次性平均” 策略,在分布式过程结束时平均结果,证明了并行优化对于时间差异方法收敛时间的提升。
- 时间差分与残差梯度在神经网络逼近中的实验比较
我们在深度 Q 学习中比较了 Residual Gradient (RG) 和 Temporal Difference (TD), 结果表明 TD 更优,同时我们还发现了强化学习和监督学习之间的一个关键差异,即小的 Bellman 残差误差 - KDD野外强化学习:在打车市场部署的可扩展的强化学习调度算法
本研究提出了一种基于强化学习的实时调度算法,采用了新型的时间差异价值更新方法,并引入了自适应图剪枝策略,实现了 A/B 测试下司机收入总量提升超过 1.3%和全面部署后主要性能指标提升达到 5.3%的显著性能提升。
- ICML强化学习的模块化:通过算法独立性进行信用分配
本研究提出了一种模块化信用分配的形式化理论,通过对算法自身的因果分析,将社会决策制定框架作为马尔可夫决策过程的更精细正式框架,证明了一些单步时序差分行为价值方法满足这一约束条件,而所有政策梯度方法都不满足该约束条件,传输学习的实证研究表明这 - AAAI预测与评估:通过潜在未来预测分解价值估计
本文提出了一种名为 “Value Decomposition with Future Prediction” 的强化学习算法,通过将价值函数分解为潜在未来动态部分和与策略无关的轨迹回报部分,提高了价值估计的准确性,并在 OpenAI Gym - AAAI方差惩罚的在线与离线行为者 - 评论家算法
本研究提出了基于策略梯度方法的强化学习算法,通过对回报的方差进行惩罚,保证了算法的效果可靠,并在标准测试环境下展示了相应结果。
- 学习后继状态和目标相关价值:数学视角
本文介绍基于时间差异的强化学习理论,讨论了继承状态和与目标有关的价值函数模型的应用,并提供了适用于离散或连续环境下的迭代算法,其中 Bellman-Newton 操作符编码环境中路径的组合形成性,提供状态的两个典型表示,并提供函数的真实更新 - ICML具有正则化修正的梯度时序差分学习
介绍了一种新的 TD 方法 ——TDRC,它在易用性、正确性和性能之间平衡,在 TD 表现良好时,表现与 TD 相当,并且在 TD 发散时保持正确性。
- AAAI带有 λ 回报的未校正最小二乘时序差分的补充材料
本文提供了 Takayuki Osogami 关于 “未经校正的最小二乘时间差分与 lambda 回报” 的补充材料,发表在第 34 届 AAAI 人工智能会议上。
- 近似时序差分学习是可逆策略的梯度下降
该论文探讨了在强化学习中,通过使用 Dirichlet 范数来代替标准的误差计算方法,即使在使用非线性参数近似的情况下,也可以确保 TD 算法的收敛性并解决梯度消失问题。
- 在 3D 游戏中使用并行动作的模仿学习
本文介绍了一种新颖的深度强化学习架构,其中利用了多动作策略来提高训练效率和性能,并结合了模仿学习和时序差分强化学习来快速训练视觉系统。
- 一致的在线反事实评估
本文提出了一种称为 COP-TD(λ,β)的算法,该算法可以提高在线行为评估(OPE)的表现,减少偏差,并消除行为和目标策略之间的差异,并且在应用函数近似时收敛到与使用 lambda 策略相同的结果。同时,这个算法也和已有算法相比取得了更好 - 计算时间差异的定点还是最小化贝尔曼残差?统一的斜投影视角
研究了马尔可夫决策过程情景下政策价值函数的线性逼近的投影方法。分别考虑了一步时序差分计算(TD(0))和 Bellman 残差(BR)最小化的两种流行方法,并描述了它们的性能优劣。最终,提出了一个统一的观点,揭示了零部件投影在 Bellma