ICLRAug, 2023

张量程序 IVb:无限宽度极限下的自适应优化

TL;DR超越随机梯度下降(SGD),在 Adam 等自适应优化器训练的宽神经网络中出现了哪些新现象?我们展示了:与 SGD 中相同的特征学习和核行为二分法同样适用于各种优化器,包括 Adam—— 尽管使用了非线性的 “核” 概念。我们推导出了相应的任何架构的 “神经切线” 和 “最大更新” 的极限。上述结果的两个基础性突破是:1)一种新的张量程序语言 NEXORT,可以表达自适应优化器是如何将梯度转化为更新的。2)引入 bra-ket 表示法,以极大地简化张量程序中的表达和计算。本工作总结并概括了张量程序系列文章中的所有先前结果。