Feb, 2022

关于利用方差缩减方法对于随机连续环境下的时差学习进行修正

TL;DR本文研究了使用时差学习算法评估连续时间进程的策略评估问题,并根据随机微分方程的时间离散化来学习连续值函数。通过为差分学习提供零均值修正,我们提出了一种鲁棒的算法,包括两种算法:一种是基于模型的算法,另一种是基于无模型的算法,其收敛性得到了证明。此外,该方法还可用于机器学习中求解非发散二阶椭圆方程的问题。