Feb, 2021

基于观测的离策略模仿学习

TL;DR本文提出了一个基于观察学习的学习方法,包括分布匹配、离线策略学习和倒置动作模型,能够在性能和样本效率上与最先进的方法相媲美。