情感强化时序差分学习的初步实证研究

NIPSMay, 2017

情感强化时序差分学习的初步实证研究

A First Empirical Study of Emphatic Temporal Difference Learning

Sina Ghiassian, Banafsheh Rafiee, Richard S. Sutton

TL;DR本文首次实证研究了强调时间差分学习算法（ETD）在 Mountain Car 问题的使用，对比标准的时间差分学习算法，比如线性 TD（0），研究表明在 on-policy 和 off-policy 两种情况下，ETD 算法的收敛效果更好。

Abstract

In this paper we present the first empirical study of the emphatic temporal-difference learning algorithm (ETD), comparing it with conventional temporal-difference learning, in particular, with linear TD(0), on on-policy and off-policy variations of the mountain car problem. The initia

emphatic temporal-difference learning algorithm linear td(0)mountain car problem convergence properties off-policy training

发现论文，激发创造

强调时间差分学习的收敛性

本文研究了在带有有限状态的折扣马尔可夫决策过程中对策略进行强调时间差分学习的算法。我们提出了 ELSTD（λ）和 ETD（λ）的首个收敛性证明，并针对一般的离线策略研究了 ELSTD（λ）迭代的 $L^1$ 收敛和使用单个无限长轨迹计算的近似值函数的两种算法的几乎必然收敛性。

Jun, 2015

广义强化时间差分学习：偏差 - 方差分析

本文提出了一种广义的基于强化学习的离线评估算法，该算法可以控制一个重要性采样因子的衰减速度，并研究了其收敛和精度属性。

Sep, 2015

一种强调的离线时序差分学习方法

本文介绍了通过有选择地加强或减弱不同时间步骤的更新来改善参数化时序差分学习算法的性能，并且提出了一种新的增强 TD (λ) 算法，相较于之前的方法，它更简单易用，只有一个学习参数向量和一个步长参数，含有状态相关折扣函数和自举函数，并且能够根据需要确定不同状态的精确定价程度。

Mar, 2015

强调时序差分学习

该研究概括了近期两个关于强化学习中强调算法的稳定性和收敛性的研究，同时展示了强调算法的灵活性在状态折扣、状态引导和资源分布等方面的经验优势。

Jul, 2015

PER-ETD: 多项式高效的强调时序差分学习方法

本文提出了一种新的 ETD 方法 PER-ETD，通过每次评估参数的迭代周期内重启和更新后续跟踪，采用对数增长的设计来保证方差和偏差之间的最佳权衡，并保持两者亚线性消失，实现了与 ETD 相同的理想固定点收敛，但改善了 ETD 的指数样本复杂度为多项式级别，实验证明 PER-ETD 具有优越性能和优势。

Oct, 2021

截断强调时间差异方法在预测和控制中的应用

本文旨在通过使用截断 “随后追踪”（followon traces）的强调式时间差（TD）方法，解决随后追踪在实践中难以使用的大方差问题。与原始的随后追踪不同，截断的随后追踪仅依赖于有限的历史数据，从而减少方差，并使我们提出的强调式 TD 方法在预测和控制问题上进行有限样本分析

Aug, 2021

自适应线性函数逼近时间差分学习

本文提出了一种自适应投影变体的临时差异 (TD) 学习算法 AdaTD (0)，它具有线性函数逼近和可证明稳定性，其实验结果表明其对于标准强化学习任务具有有效性。

Feb, 2020

实用的线性时间差分学习研究

本文介绍了两种混合 TD 策略评估算法，并通过实证比较得出哪种线性 TD 方法在不同情况下应该优先使用及实际应用的具体建议。

Feb, 2016

反步时间差分学习

本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法（包括 GTD 和 TDC）的统一视角，并提出了一种基于后掠技术的新的收敛算法，最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。

Feb, 2023

关于利用方差缩减方法对于随机连续环境下的时差学习进行修正

本文研究了使用时差学习算法评估连续时间进程的策略评估问题，并根据随机微分方程的时间离散化来学习连续值函数。通过为差分学习提供零均值修正，我们提出了一种鲁棒的算法，包括两种算法：一种是基于模型的算法，另一种是基于无模型的算法，其收敛性得到了证明。此外，该方法还可用于机器学习中求解非发散二阶椭圆方程的问题。

Feb, 2022