AAAIDec, 2023

部分动力学知识的高效强化学习

TL;DR本文研究在线强化学习的样本复杂性问题,并考虑了有关系统动态的部分知识,提出了一种基于 Q-learning 的算法,能够在具有有限 Markov 决策过程的系统中实现近似最优策略。