ICLROct, 2023

基于观察的模仿学习与自动折扣调度

TL;DR通过自动折扣调度的机制适应性地改变强化学习的折扣系数,我们提出了一种新颖的观察学习框架,使得代理能够在掌握较早行为之后再逐步转向后续行为,并通过在九个 Meta-World 任务上的实验证明该方法在所有任务中明显优于现有方法。