AAAIDec, 2023

生成对抗性模仿学习中的梯度爆炸探索:概率视角

TL;DR通过对 DE-GAIL 和 ST-GAIL 的研究,本文从理论角度解释了 gradient explosion 在 DE-GAIL 中是不可避免的问题,并提出了使用 CREDO 策略通过限制奖励函数来解决 gradient explosion 挑战,从而使 GAIL 在训练过程中获得较高的数据效率和稳定性。