Jun, 2024

建模异质学生教学策略的通用学徒学习框架

TL;DR提出了一种从具有异构奖励函数的优化或近优演示中诱导出有效教学策略的通用 AL 框架,并与四种基于 AL 的基准方法和两种基于 DRL 的策略在涉及教学行为预测的两个不同但相关任务上进行了对比,结果表明 EM-EDM 在所有性能指标上优于四种 AL 基准方法和两种 DRL 基准方法,能够通过管理大量连续状态空间并适应处理多样和异构的奖励函数来有效建模复杂的学生教学决策过程。