Dec, 2019

奖励条件下的策略

TL;DR本篇论文旨在探讨利用非专家轨迹收集数据进行监督学习以实现行为策略的泛化,探讨了基于此原理进行的策略搜索的方法,并在标准基准测试中与多种强化学习方法进行了比较。