Oct, 2016

连接生成对抗网络和演员-评论家方法

TL;DR本文就生成对抗网络与强化学习算法中的优化困难性问题进行了探索,指出两类算法在训练过程中的不稳定性问题,以及缓解这些问题的策略,并将GAN视为一种无法影响奖励的actor-critic方法。希望此理论联系能够激发GAN和RL社区开发具有通用性、可扩展性和稳定性的深度网络算法,并促进两个社区之间的创新灵感。