Oct, 2023

理解为压缩:非线性复杂性视角

TL;DR延迟记忆之后的泛化现象被归因于压缩。为了证明这一点,我们定义了线性映射数(LMN)来衡量网络复杂度,它是针对 ReLU 网络的线性区域数的一般化版本。LMN 可以很好地描述泛化前的神经网络压缩。尽管 L2 范数一直是描述模型复杂度的流行选择,但我们提出 LMN 的原因有很多:(1)LMN 可以自然地解释为信息 / 计算,而 L2 范数不能;(2)在压缩阶段,LMN 与测试损失呈线性关系,而 L2 范数与测试损失之间的关系非常复杂且非线性;(3)LMN 还揭示了 XOR 网络在两个泛化解之间切换的有趣现象,而 L2 范数却没有。除了解释 grokking 外,我们认为 LMN 是作为神经网络版的科尔莫哥洛夫复杂性的一个有希望的候选,因为它明确地考虑到与现代人工神经网络的性质相一致的局部或有条件的线性计算。