BriefGPT.xyz
Ask
alpha
关键词
importance-weighting correction
搜索结果 - 1
批量强化学习中的 Q * 逼近算法:一个理论比较
本文涵盖了两种用于近似 Q 星算法在批量强化学习中表现的性能保证,并与传统的迭代方法进行了比较,证明了这些方法可以通过估计贝尔曼误差,仅依靠批数据和输出静态策略的算法,享受与任务无关的线性迭代时间性质。 其中一种算法使用了新颖而明确的重要性
→
PDF
4 years ago
Prev
Next