AAAIJan, 2020

Lipschitz 历练 强化学习

TL;DR本文探讨了在面对一系列的强化学习任务时知识传递的问题,提出了一种近似的马尔科夫决策过程的优化值函数的方法,通过此方法实现了个体在面临新任务时的无负面经验的学习。通过实验验证了此方法在延续学习中的效果。