Feb, 2024

C-GAIL: 使用控制理论稳定生成对抗模仿学习

TL;DRGenerative Adversarial Imitation Learning (GAIL)使用强化学习来优化GAN-like判别器的奖励信号,但存在训练不稳定的问题。本文通过控制论分析GAIL,提出一种新的控制器'C-GAIL',能够加速收敛速度、减小振荡范围,并更好地匹配专家的分布。