Oct, 2023

基于变分因果推理的离线模仿学习

TL;DR离线模仿学习中,通过使用计反事实数据增强方法,本研究通过对抗性生成反事实样本来有效消除困扰智能体泛化能力的误导特征,从而解决了专家数据稀缺、仅能记忆差劣轨迹以及环境变化引起的问题。实验结果表明,该方法在内部分布稳健性和外部分布泛化能力方面显著优于其他基线模型。