ICLRApr, 2020

时间自适应强化学习

TL;DR本文介绍一种适用于时间限制任务的增强学习算法,称为适应时间的马尔可夫决策过程,这种算法可以灵活地适应不同的时间限制,并使用两种无模型,基于价值的算法,Gamma-Ensemble 和 n-Step Ensemble。该算法可与许多现有的 RL 方法,算法和场景兼容,并能够实现零 - shot 的适应能力。