BriefGPT.xyz
Ask
alpha
关键词
q-value distributions
搜索结果 - 1
强化学习中勘探对泛化的重要性
基于探索的深度强化学习方法对新环境具有良好的泛化能力,通过使用一种基于 Q 值分布集合的探索方法,该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。
PDF
a year ago
Prev
Next