BriefGPT.xyz
Ask
alpha
关键词
pessimistic q-learning
搜索结果 - 1
ICML
离线强化学习的悲观 Q 学习:朝着最优样本复杂性的方向
本文研究了离线强化学习的一个悲观策略 Q-learning,针对有限时间的马尔科夫决策过程,通过单一策略密度函数的集中性假设,对其样本复杂度进行了表征,并提出了一种方差减小的悲观 Q-learning 算法来达到接近最优的样本复杂度。研究结
→
PDF
2 years ago
Prev
Next