Jul, 2019

通过交替梯度下降上升实现固定步长的有限遗憾和循环

TL;DR本文介绍了一种通过交替更新策略,使用有限步长实现梯度下降算法的非标准实现方法,从而消除了标准实现方法容易出现的策略偏离均衡和后悔值不断增加的问题,并建议在对抗环境下使用交替梯度下降算法来保证策略的有界性和周期性。