关于广义贝尔曼方程和时间差分学习

Apr, 2017

关于广义贝尔曼方程和时间差分学习

On Generalized Bellman Equations and Temporal-Difference Learning

Huizhen Yu, A. Rupam Mahmood, Richard S. Sutton

TL;DR该论文研究了非政策时间差异学习在折扣马尔可夫决策过程中的应用，提出了一种新的基于广义 Bellman 方程设置 λ- 参数的方案来控制偏差，通过马尔科夫链理论证明了该方案的收敛性并分析了其在最小二乘实现中的收敛性。

Abstract

We consider off-policy temporal-difference (TD) learning in discounted Markov decision processes, where the goal is to evaluate a policy in a model-free way by using observations of a state process generated without executing the policy. To curb the high variance issue in off-policy TD learning, we propose a new scheme of setting the $\lambda$-parameters of

off-policy temporal-difference learning markov decision processes generalized bellman equations ergodicity least-squares based implementation

发现论文，激发创造

关于某些基于梯度的时间差分离线学习算法的收敛性

本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法，并针对几个基于梯度的 TD 算法提出了一组收敛性结果。

Dec, 2017

广义强化时间差分学习：偏差 - 方差分析

本文提出了一种广义的基于强化学习的离线评估算法，该算法可以控制一个重要性采样因子的衰减速度，并研究了其收敛和精度属性。

Sep, 2015

强调时间差分学习的收敛性

本文研究了在带有有限状态的折扣马尔可夫决策过程中对策略进行强调时间差分学习的算法。我们提出了 ELSTD（λ）和 ETD（λ）的首个收敛性证明，并针对一般的离线策略研究了 ELSTD（λ）迭代的 $L^1$ 收敛和使用单个无限长轨迹计算的近似值函数的两种算法的几乎必然收敛性。

Jun, 2015

一种强调的离线时序差分学习方法

本文介绍了通过有选择地加强或减弱不同时间步骤的更新来改善参数化时序差分学习算法的性能，并且提出了一种新的增强 TD (λ) 算法，相较于之前的方法，它更简单易用，只有一个学习参数向量和一个步长参数，含有状态相关折扣函数和自举函数，并且能够根据需要确定不同状态的精确定价程度。

Mar, 2015

没有学习率的时序差分更新

本文从统计原理出发，推导出一种新的时序差分学习公式，相比现有的 TD (lambda) 算法，不需要使用学习速率参数 alpha，而是针对每个状态转移具有自己的学习速率，实验结果表明该算法在强化学习任务中表现更为优异。

Oct, 2008

具有资格追踪的离线学习：一份调查报告

采用资格追踪技术对现有算法进行了系统的改进，并提出了新的扩展算法，比较实验结果表明标准的 on-policy 和 off-policy LSTD（λ）/LSPE（λ）算法以及如果特征空间维度太大不能使用最小二乘法则选择 TD（λ）算法最佳。

Apr, 2013

一种时差方法用于策略梯度估计

本文提出一种无需特定抽样策略即可从起始状态重构策略梯度的新方法。通过使用来自离线数据流的梯度评论家的时序差异更新，开发了首个可以无模型地避开分布转移问题的估计器。实验证明，其具有良好的偏差 - 方差平衡和性能表现。

Feb, 2022

带离线修正的 Q ($λ$)

这篇论文提出和分析了一种替代的离线多步时间差异学习方法，在其中离线返回校正与当前的 Q 函数以奖励形式相关，而不是与目标策略以转换概率相关，证明了这种近似校正在离线评估和控制中足以实现离线收敛条件，并对连续状态控制任务进行了理论关系的实证。

Feb, 2016

关于利用方差缩减方法对于随机连续环境下的时差学习进行修正

本文研究了使用时差学习算法评估连续时间进程的策略评估问题，并根据随机微分方程的时间离散化来学习连续值函数。通过为差分学习提供零均值修正，我们提出了一种鲁棒的算法，包括两种算法：一种是基于模型的算法，另一种是基于无模型的算法，其收敛性得到了证明。此外，该方法还可用于机器学习中求解非发散二阶椭圆方程的问题。

Feb, 2022

优先级时间差分学习

在 TD 学习中，提出一种重新加权状态的方法，在更新方程中考虑到其重要性和价值估计的可靠性，证明此方法在线性函数逼近下收敛，并在实验中与其他 TD 方法进行比较。

Jun, 2021