Jun, 2020

使用神经常微分方程的基于模型的半马尔科夫决策过程强化学习

TL;DR本论文介绍了两种用于半 Markov 决策过程的新型模型强化学习框架中,用神经常微分方程建模连续时间动力学的优雅解决方案。我们的模型准确地表征了连续时间动态,使我们能够使用少量数据开发出高效的策略。同时,我们还开发了一种基于模型的方法用于优化时间表,以减少与环境的交互频率,同时保持近乎最优的性能。我们通过各种连续时间领域的实验,证明了我们方法的有效性。