NIPSNov, 2017

基于运动 GAN 的视频代理行为迁移

TL;DR使用生成对抗网络训练短期子目标,从而在未知环境中生成视觉上有意义的行为,并使用这些行动来训练强化学习代理。