Mar, 2019

基于层次结构的 KL 正则化强化学习中的学习和迁移

TL;DR本文提出一种基于 KL 正则化预期奖励目标的强化学习代理方法,它可以利用先验知识并在解决方案空间中利用可重复使用的结构,同时讨论了在增加潜在变量的情况下如何实现分层结构的不同归纳偏置以及其中的置换学习问题。实验证明,这种代理方法可以应用于不同的连续控制任务中,获得更快的学习和置换效果。