Dec, 2023

用难度条件生成器训练强化学习代理与人类

TL;DR我们使用参数环境响应模型(PERM)来训练强化学习代理和人类学习者,在模型中直接建模难度和能力,并且将环境的难度和个体的能力进行对齐,创建了基于最近发展区域的课程。PERM能够在不进行实时强化学习更新且能够进行离线训练的情况下适应各种学生。我们提出了一种利用PERM适应性的两阶段训练过程,并通过实证研究证明了它在训练强化学习代理和人类学习者方面的有效性。