May, 2019

自适应截断反向传播通过时间来控制梯度偏差

TL;DR本文提出了一种适应性的TBPTT方案,将时间滞后问题转化为选择一定容忍梯度偏差量的问题,并对于满足几何衰减的真实RNNs,可以通过变化截断长度来控制偏差,证明了该偏差控制了含非凸损失函数的SGD的收敛速度,并设计了一种实用的适应性截断长度的方法。在语言模型任务上的实验表明,适应性TBPTT减轻了固定TBPTT的计算缺陷。