Apr, 2020

深度强化学习用于自适应学习系统

TL;DR本文提出了一种采用马尔可夫决策过程(MDP)的无模型强化学习算法 --- 深度 Q 学习算法来找到最优化的自适应学习策略,同时开发了一个转移模型估计器来优化数据利用,实验结果表明该算法在自适应学习领域有着较高的效率。