Jan, 2020

通过梯度下降学习可逆单元

TL;DR通过在交替操作序列的时间参数上应用梯度下降法,我们研究了学习 $U (d)$ 中的单位转换的难度。我们提供了数值证据表明,尽管损失景观非凸,但当序列包含 $d^2$ 个或更多参数时,梯度下降法总是收敛于目标齐次。收敛速度表明了一种 “计算相变”。当小于 $d^2$ 个参数时,梯度下降收敛于次优解,而当大于 $d^2$ 个参数时,梯度下降以指数方式收敛于最优解。