BriefGPT.xyz
Ask
alpha
关键词
monte-carlo value-error
搜索结果 - 1
高效离线强化学习:批评者至关重要
最近的研究表明,在离线强化学习中使用有监督方法(不使用时序差分学习)既有益处又有局限性。本文提出了一种取长补短的方法,首先通过有监督学习来学习行为策略和评论家,然后再通过离线强化学习进行改进。具体而言,我们通过使用常被忽视的提供的离线轨迹中
→
PDF
17 days ago
Prev
Next