BriefGPT.xyz
Ask
alpha
关键词
bellman error estimation
搜索结果 - 2
离线政策选择对强化学习的样本效率何时有效?
离线强化学习中的政策选择,样本效率,离线政策评估,以及贝尔曼误差估计等方面的研究。
PDF
7 months ago
批量强化学习中的 Q * 逼近算法:一个理论比较
本文涵盖了两种用于近似 Q 星算法在批量强化学习中表现的性能保证,并与传统的迭代方法进行了比较,证明了这些方法可以通过估计贝尔曼误差,仅依靠批数据和输出静态策略的算法,享受与任务无关的线性迭代时间性质。 其中一种算法使用了新颖而明确的重要性
→
PDF
4 years ago
Prev
Next