BriefGPT.xyz
大模型
Ask
alpha
关键词
total variance
搜索结果 - 1
几乎没有视野限制的离线强化学习
本文利用离线强化学习技术研究了时域同质马尔可夫决策过程上的策略评估和优化问题,并提出了一种递归方法来限制离线场景下的 “总方差” 项,得到了近似无视野远的样本复杂度上限。
PDF
3 years ago
Prev
Next