May, 2023

正则化和方差加权回归在线性MDPs中实现极小化最优性: 理论和实践

TL;DR本文通过线性函数逼近研究了镜像梯度价值迭代的样本复杂性,并提出了最小最大优化的方案,即方差加权最小二乘MDVI (VWLS-MDVI),同时提出了Deep Variance Weighting (DVW)算法用于基于价值的深度强化学习。