BriefGPT.xyz
Ask
alpha
关键词
ensemble-based uncertainty quantification
搜索结果 - 1
离线强化学习多任务数据共享的悲观值迭代
离线强化学习(RL)在从固定数据集中学习特定任务策略方面显示出有希望的结果。然而,成功的离线 RL 往往严重依赖于给定数据集的覆盖范围和质量。在特定任务的数据集有限的情况下,一种自然的方法是通过来自其他任务的数据集改进离线 RL,即进行多任
→
PDF
2 months ago
Prev
Next