AAAIOct, 2021

面向从次优演示中高样本效率的学徒学习

TL;DR使用 Systematic Self-Supervised Reward Regression(S3RR)框架,通过系统性的替代轨迹退化,可以实现从非优示范中学习的能力,比现有的学习技术更为高效。