折扣马尔可夫决策过程中均值方差的时限差异学习有限时间分析

Jun, 2024

折扣马尔可夫决策过程中均值方差的时限差异学习有限时间分析

Finite Time Analysis of Temporal Difference Learning for Mean-Variance in a Discounted MDP

Tejaram Sangadi, L. A. Prashanth, Krishna Jagannathan

TL;DR针对折扣奖励马尔可夫决策过程（MDP）中方差的策略评估问题，我们推导了有限样本界限，该界限在均方差意义上成立，并在使用 / 不使用正则化的尾值迭代平均值时具有高概率，而且误差的初始衰减呈指数衰减，总界限为 $O (1/t)$，其中 $t$ 是 TD 算法的更新迭代次数。此外，正则化 TD 变体的界限是通用步长。我们的界限为折扣 MDP 中的均值 - 方差优化的演员 - 评论家算法分析提供了新的途径。

Abstract

Motivated by risk-sensitive reinforcement learning scenarios, we consider the problem of policy evaluation for variance in a discounted re

risk-sensitive reinforcement learning policy evaluation variance temporal difference mean-variance optimization

发现论文，激发创造

时差学习的有限样本分析

评估折扣马尔可夫决策过程中，使用线性函数逼近的时序差异 (TD) 方法的性能限界，我们证明，使用通用且独立于实例的步长算法，结合 Polyak-Ruppert 尾部平均，可以获得接近最优的方差和偏差项，同时给出了相应的样本复杂性限界。

Oct, 2023

线性函数逼近分布式时序差分学习的有限时间性能

本研究提出了一种分布式的 TD 算法，并对其性能进行了有限分析，探讨了对应于不同网络构型、折扣因子、步长和混合时间等因素的收敛速度和逼近精度的权衡关系。

Jul, 2019

有限时间内基于线性函数逼近的时序差分学习分析

本文提供了关于具有线性函数逼近的时间差异学习的简单而明确的有限时间分析，研究它在强化学习中的适用性，分析结果适用于 TD（λ）学习和应用于高维度最佳停止问题的 Q-learning。

Jun, 2018

时序差分学习是否最优？一种实例相关的分析

通过引入变量缩减形式的随机逼近，本研究提出了一种实例依赖的策略评估算法，并在非渐近条件下实现了优化性能，同时在理论上证明了其优越性。

Mar, 2020

基于线性函数逼近的时序差分学习的有限时间分析：尾平均和正则化

本研究研究了结合尾平均的时序差分（TD）学习算法的有限时间行为。研究发现，尾平均的 TD 在不需要信息的情况下，可以在期望和高概率下以最优的 $O (1/t)$ 速率收敛，我们提出和分析了一个增加了正则化的 TD 变量，结论表明正则化的 TD 对于具有病态特征的问题是有用的。

Oct, 2022

关于利用方差缩减方法对于随机连续环境下的时差学习进行修正

本文研究了使用时差学习算法评估连续时间进程的策略评估问题，并根据随机微分方程的时间离散化来学习连续值函数。通过为差分学习提供零均值修正，我们提出了一种鲁棒的算法，包括两种算法：一种是基于模型的算法，另一种是基于无模型的算法，其收敛性得到了证明。此外，该方法还可用于机器学习中求解非发散二阶椭圆方程的问题。

Feb, 2022

改进的有限时间分析：基于深度神经网络的时差学习

本文基于非线性的动作价值逼近，对具有神经网络函数参数化的时序差异（TD）学习算法进行改进的有限时间分析，得到了一种改进的新的样本复杂度 Ο̃(ε^(-1))，在马尔可夫采样下取得了 Ο̃(ε^(-1)) 的复杂度，相比现有文献中已知的 Ο̃(ε^(-2)) 复杂度是第一次实现的研究。

May, 2024

方差缩减时序差分学习的重新分析

本文介绍了 variance reduced TD（VRTD）算法及其在非渐进情况下演化的方向收敛性和方差减少性，证明了 VRTD 具有线性收敛速度，在 Markov 采样的条件下能够显著降低方差误差和偏差误差。

Jan, 2020

关于时序差分学习的统计优势

本文介绍了使用 TD 方法估计值函数的优势，即使用一种新的度量方法 - 问题的轨迹跨越时间，可以在一定程度上提高两个状态的值差的测量准确性。

Jan, 2023

面向重尾奖励的可证明鲁棒时序差分学习

本文探讨了强化学习中，奖励分布呈现重尾分布时，采用动态梯度裁剪机制的 TD 学习和 NAC 方法能够应对此类问题，论证了采用动态梯度裁剪机制的 TD 学习可在偏置和随机梯度变化之间实现有利的权衡，对于一些 p（0<p<=1），都以期望和高的概率下 finie moment（1+p）的重尾收益实现样本复杂度，同时 Robust TD 学习具有相同的特征。

Jun, 2023