BriefGPT.xyz
Ask
alpha
关键词
dyna-style morl method
搜索结果 - 1
通过广义策略改进优先级实现高样本效率的多目标学习
介绍了一种新的多目标强化学习算法,使用广义策略提升来定义优先级,实现了积极的学习策略,在学习中获得更高效的样本,通过使用 Dyna 样式的 MORL 方法识别先前经验最相关的特定代理偏好的策略以提高学习效率,并证明了算法始终收敛于一个有限步
→
PDF
a year ago
Prev
Next