May, 2022

基于参数化专家的高效学习数据增强

TL;DR本研究提出了一种名为增强型策略克隆(APC)的技术,通过使用合成状态在采样轨迹周围诱导反馈敏感性,从而显着减少了克隆专家所需的环境交互次数,实现了从专家到学生策略的高效数据迁移,适用于许多现有的算法。