Oct, 2018

双层优化的截断反向传播

TL;DR本文分析了通过截断反向传播计算的近似梯度的属性,并为其收敛。研究表明,使用几步反向传播计算的近似梯度优化通常与使用精确梯度的优化相当,同时需要更少的内存和一半的计算时间。