In recent years, many applications have deployed incentive mechanisms to
promote users' attention and engagement. Most incentive mechanisms determine
specific incentive values based on users' attributes (e.g., pr
本文就生成对抗网络与强化学习算法中的优化困难性问题进行了探索,指出两类算法在训练过程中的不稳定性问题,以及缓解这些问题的策略,并将 GAN 视为一种无法影响奖励的 actor-critic 方法。希望此理论联系能够激发 GAN 和 RL 社区开发具有通用性、可扩展性和稳定性的深度网络算法,并促进两个社区之间的创新灵感。