Dec, 2022

使用层次奖励函数指定行为偏好

TL;DR考虑在任务中以达到期望状态和避免不良状态的形式下,建议采用严格偏序的政策空间、环境独立的层次化奖励结构以及 Pareto 最优性的奖励函数设计,经实验证明其具有期望行为和快速学习的能力。