Jul, 2023

TGRL:一种教师引导增强学习算法

TL;DR通过权衡强化学习和师生学习目标的重要性,我们提出了一种有原则的方法,实现了在何时遵循教师和何时使用奖励进行动态自动平衡,这种方法名为‘教师引导强化学习’(TGRL),无需超参数调整在不同领域都能超越强基线。