May, 2024

异质智能体中的自适应教学:在稀疏奖励场景中平衡惊喜

TL;DR学习演示(LfD)是一种有效的训练系统的方法,使得 “学生” 代理能够通过从最有经验的 “教师” 代理的演示中学习,而不是并行训练他们的策略。我们提出了一种特别针对教师和学生代理之间异质性挑战的教师 - 学生学习框架,该框架基于 “惊喜” 的概念,通过改进教师代理引起环境反应的同时,最小化学生代理对演示的惊喜来适应两者之间的差异。我们通过在稀疏奖励环境中的控制任务中展示学生的学习改进来验证我们的方法。