随机变分不等式的简洁优化方法，II：马尔可夫噪声与强化学习策略评估

Nov, 2020

随机变分不等式的简洁优化方法，II：马尔可夫噪声与强化学习策略评估

Simple and optimal methods for stochastic variational inequalities, II: Markovian noise and policy evaluation in reinforcement learning

PDF

Georgios Kotsalis, Guanghui Lan, Tianjiao Li

TL;DR本文研究了马尔可夫噪声下的随机泛型不等式问题，并提出了用于强化学习中的随机策略评估问题的算法，包括改进的标准 TD 算法和快速 TD 算法等。

Abstract

The focus of this paper is on stochastic variational inequalities (VI) under Markovian noise. A prominent application of our algorithmic developments is the stochastic policy evaluation problem in reinforcement l

stochastic policy evaluation stochastic variational inequalities temporal difference learning parallel implementation fast td algorithm

发现论文，激发创造

光滑非线性 TD 学习的单时间尺度随机非凸凹优化

本文介绍了两种单时间步单循环算法，分别通过动量和方差约束提高了非凸强凹随机优化问题的收敛速度，降低了数据采样量，同时在理论上证明了算法的收敛性和收敛速度。

Aug, 2020

策略评估的随机方差缩减方法

本文提出了一种基于线性函数逼近的政策评估算法，将经验政策评估问题转化为一个凸凹优化鞍点问题，并通过一些批量梯度方法和随机方差约减方法解决问题，在实验中取得了良好的效果。

Feb, 2017

具有马尔可夫噪声的一阶方法：从加速到变分不等式

该论文提出了一种针对马尔可夫噪声的随机优化问题的优化方法，使用随机批处理方案和多层蒙特卡洛方法，在非凸和强凸情况下实现对梯度方法和变分不等式的统一理论分析。此外，该研究消除了以前关于马尔可夫噪声的限制假设，并提供了与优化问题的强凸情况相匹配的下界。

May, 2023

带函数约束的随机变分不等式问题的一阶方法

本文提出了适用于具有各种设置的函数约束 VI 问题的新型一阶方法，包括具有随机算子和 / 或随机约束的平滑或非平滑问题。通过使用算子和约束的外推来更新变量和 Lagrange 乘子，我们的算法能够实现最优操作员或样本复杂度。对于平滑的确定性问题，我们还提出了一种新的单循环自适应 Lagrangian 外推方法，可以自适应地搜索和显式地绑定 Lagrange 乘子。此外，我们的算法可以轻松地扩展到具有耦合函数约束的鞍点问题。

Apr, 2023

关于利用方差缩减方法对于随机连续环境下的时差学习进行修正

本文研究了使用时差学习算法评估连续时间进程的策略评估问题，并根据随机微分方程的时间离散化来学习连续值函数。通过为差分学习提供零均值修正，我们提出了一种鲁棒的算法，包括两种算法：一种是基于模型的算法，另一种是基于无模型的算法，其收敛性得到了证明。此外，该方法还可用于机器学习中求解非发散二阶椭圆方程的问题。

Feb, 2022

方差缩减时序差分学习的重新分析

本文介绍了 variance reduced TD（VRTD）算法及其在非渐进情况下演化的方向收敛性和方差减少性，证明了 VRTD 具有线性收敛速度，在 Markov 采样的条件下能够显著降低方差误差和偏差误差。

Jan, 2020

基于随机信赖域优化的快速黑盒变分推断

TrustVI 是一种基于信任域优化和重新参数化技巧的快速二阶算法，用于黑盒变分推断。它在每次迭代中提出并评估基于变分分布抽取的小批量的步骤。该算法具有收敛到稳定点的可证明性。

Jun, 2017

应用 ODE 方法的随机逼近和强化学习在马尔可夫噪音中

扩展 Borkar-Meyn 定理以适用于具有线性函数逼近和资格痕迹的离策略强化学习算法，分析随机逼近算法的稳定性和马尔可夫噪声条件下的边界性。

Jan, 2024

加速随机概率推断

本文提出了一种基于二阶方法的随机变分推断方法，通过求解变分目标函数的 Hessian 矩阵，选择了两种数值方案来实现这种方法，通过合成和真实数据的实证评估，证实了这种方法的有效性和效率。

Mar, 2022

马尔可夫环境下有限样本分析 GTD 策略评估算法

本文首次针对 Markov 过程下 GTD 算法进行了有限样本边界分析，证明了变体步长的 GTD 算法会收敛且收敛速度与步长和混合时间有关，说明经验回放技巧通过改善 Markov 过程的混合性能有利于算法收敛。

Sep, 2018