TL;DR本研究提出了一种离线时间感知分层 EM 能量子轨迹的学习框架,以应对医疗保健等人类中心任务中出现的不断变化的奖励函数,实验结果表明 THEMES 可以明显优于竞争的最新基线。
Abstract
apprenticeship learning (AL) is a process of inducing effective
decision-making policies via observing and imitating experts' demonstrations.
Most existing AL approaches, however, are not designed to cope with the
evolv
提出了一种从具有异构奖励函数的优化或近优演示中诱导出有效教学策略的通用 AL 框架,并与四种基于 AL 的基准方法和两种基于 DRL 的策略在涉及教学行为预测的两个不同但相关任务上进行了对比,结果表明 EM-EDM 在所有性能指标上优于四种 AL 基准方法和两种 DRL 基准方法,能够通过管理大量连续状态空间并适应处理多样和异构的奖励函数来有效建模复杂的学生教学决策过程。