适者生存的表达方式：一个模块化加法的案例研究

May, 2024

适者生存的表达方式：一个模块化加法的案例研究

Survival of the Fittest Representation: A Case Study with Modular Addition

Xiaoman Delores Ding, Zifan Carl Guo, Eric J. Michaud, Ziming Liu, Max Tegmark

TL;DR神经网络在训练过程中如何在学习多种不同的算法时进行选择？本研究通过启发生态学中多种物种共存的现象，提出在初始化时，神经网络包含多种解决方案（表示和算法），它们在资源限制的压力下相互竞争，最终选择出最适合的解决方案。研究以神经网络执行模块化加法为案例，发现不同Fourier频率下的圆形表示经历了这种竞争动力学，只有少数圆形表示最终存活下来。研究还发现，初始信号和梯度较高的频率能够更容易存活，并且通过增加嵌入维度，观察到更多存活频率。受描述物种动态的Lotka-Volterra方程启发，研究发现圆形表示的动态可以很好地用一组线性微分方程描述。我们对模块化加法的研究结果表明，可以将复杂表示分解为更简单的组件，以及它们的基本相互作用，以洞察表示的训练动态。

Abstract

When a neural network can learn multiple distinct algorithms to solve a task, how does it "choose" between them during training? To approach this question, we take inspiration from ecology: when multiple species coexist, they eventually reach an equilibrium where some survive while oth