AAAIDec, 2023
生成对抗性模仿学习中的梯度爆炸探索:概率视角
Exploring Gradient Explosion in Generative Adversarial Imitation Learning: A Probabilistic Perspective
Wanying Wang, Yichen Zhu, Yirui Zhou, Chaomin Shen, Jian Tang...
TL;DR通过对 DE-GAIL 和 ST-GAIL 的研究,本文从理论角度解释了 gradient explosion 在 DE-GAIL 中是不可避免的问题,并提出了使用 CREDO 策略通过限制奖励函数来解决 gradient explosion 挑战,从而使 GAIL 在训练过程中获得较高的数据效率和稳定性。