BriefGPT.xyz
Ask
alpha
关键词
explicit diversity rewards
搜索结果 - 1
利用后继特征发现多样化近似最优策略
本篇研究提出了一种名为 'Diverse Successive Policies' 的新型方法,应用在强化学习中以发掘具有多样性的政策集合,进而实现探索、迁移、层级和鲁棒性等目标。该方法通过将问题形式化为一种约束马尔科夫决策过程(CMDP)
→
PDF
3 years ago
Prev
Next