ICLROct, 2023
基于观察的模仿学习与自动折扣调度
Imitation Learning from Observation with Automatic Discount Scheduling
Yuyang Liu, Weijun Dong, Yingdong Hu, Chuan Wen, Zhao-Heng Yin...
TL;DR通过自动折扣调度的机制适应性地改变强化学习的折扣系数,我们提出了一种新颖的观察学习框架,使得代理能够在掌握较早行为之后再逐步转向后续行为,并通过在九个 Meta-World 任务上的实验证明该方法在所有任务中明显优于现有方法。