BriefGPT.xyz
Ask
alpha
关键词
tdc algorithm
搜索结果 - 3
使用线性函数逼近进行策略评估的高概率样本复杂度
本文主要针对利用线性函数逼似模型来评估折扣无限领域 MDP 中的策略的问题,研究两种广泛使用的政策评估算法(TD 和 TDC)最佳线性系数的预估误差所需的样本复杂度,提出了一个高可靠性收敛保证的样本复杂度上界,并且在策略内和策略外设置中都达
→
PDF
a year ago
带模型不确定性的在线强化学习
本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法,可以在线上和增量的情况下实现,在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数,并证明了 TDC 算法渐近收敛到一
→
PDF
3 years ago
两个时间尺度的离线 TD 学习:对马尔可夫样本的非渐进分析
本文对两时间尺度 TDC 算法在非独立同分布的马尔可夫抽样路径和线性函数逼近下的收敛性进行了非渐近收敛分析,并在此基础上提出了具有分块减小的步长的 TDC 算法,实验结果表明其具有与 TDC 常数步长收敛速度相当的收敛速度,并在减小步长的情
→
PDF
5 years ago
Prev
Next