Dec, 2023

生成对抗性模仿学习中的梯度爆炸探索:概率视角

TL;DR通过对DE-GAIL和ST-GAIL的研究,本文从理论角度解释了gradient explosion在DE-GAIL中是不可避免的问题,并提出了使用CREDO策略通过限制奖励函数来解决gradient explosion挑战,从而使GAIL在训练过程中获得较高的数据效率和稳定性。