AAAIOct, 2021
面向从次优演示中高样本效率的学徒学习
Towards Sample-efficient Apprenticeship Learning from Suboptimal Demonstration
Letian Chen, Rohan Paleja, Matthew Gombolay
TL;DR使用 Systematic Self-Supervised Reward Regression(S3RR)框架,通过系统性的替代轨迹退化,可以实现从非优示范中学习的能力,比现有的学习技术更为高效。