Jan, 2023

通过广义策略改进优先级实现高样本效率的多目标学习

TL;DR介绍了一种新的多目标强化学习算法,使用广义策略提升来定义优先级,实现了积极的学习策略,在学习中获得更高效的样本,通过使用 Dyna 样式的 MORL 方法识别先前经验最相关的特定代理偏好的策略以提高学习效率,并证明了算法始终收敛于一个有限步数的最优解,同时单调地提高其部分解决方案的质量。