神经网络中的傅里叶电路:在数学推理和模块算术中释放大型语言模型的潜力
理解神经网络学习到的内部表示是机器学习科学中的一个基石挑战。本文探讨了一个互补问题,即为什么网络会采用特定的计算策略,通过代数学习任务对用于这些任务的网络学到的特征进行了理论分析,证明了训练网络利用傅立叶特征进行模块化加法,以及使用与不可约群表示对应的特征来执行一般群的组合,与 Nanda 等人和 Chughtai 等人的实证观察密切一致。
Nov, 2023
该研究表明,预训练的大型语言模型使用傅里叶特征进行数字加法,其中 MLP 层主要利用低频特征近似答案的幅度,而注意力层主要利用高频特征进行模块化加法(例如计算答案是奇数还是偶数)。预训练对此机制至关重要,从头开始训练的模型只利用低频特征,导致准确性较低。引入预训练的标记嵌入到随机初始化的模型中可以提高其性能。总的来说,我们的分析表明,适当的预训练表示(例如傅里叶特征)可以为 Transformer 学习算法任务的精确机制。
Jun, 2024
我们在这项工作中正式证明,在特定条件下,如果神经网络对于一个有限群是不变的,那么它的权重将恢复该群的傅里叶变换。这为傅里叶特征的出现提供了数学解释,傅里叶特征是生物和人工学习系统中普遍存在的现象。即使对于非交换群,这些结果仍然成立,此时傅里叶变换编码了所有不可约幺正群表示。我们的研究结果对于对称性探索问题具有重要意义。具体来说,我们证明了从至少在某些限制范围内是近似不变的网络的权重中,可以恢复未知群的代数结构。总体而言,这项工作为不变神经网络表示的代数学习理论奠定了基础。
Dec, 2023
神经网络对模块化算术任务的学习受限,无法很好地进行推广;然而,在文献中已知有一种多层感知机(MLP)网络权重的解析解适用于模块化加法任务,本文将这种解析解的类别扩展到包括模块化乘法和具有多个项的模块化加法。此外,我们展示出在这些数据集上经过训练的真实网络通过泛化(理解)学习类似的解,我们结合这些 “专家” 解来构建在任意模块化多项式上具有推广性的网络,并猜测通过神经网络训练的模块化多项式可被分类为可学习和不可学习,并提供了支持我们观点的实验证据。
Jun, 2024
通过解释性的逆向工程,我们观察到通过 Grokking 在复杂模块化算术中学习到的内部电路,强调了它们动力学的显着差异,此外我们引入了模块化算术的新进展衡量以及可识别模型的内部表示。
Feb, 2024
本文提出一种基于通用 Transformer 的深度学习模型,通过发现高效的算数程序,利用外部的网格状记忆进行多位数的加法计算,并且发掘了人类类似的计算策略,如位值对齐。
Jul, 2022
神经网络在训练过程中如何在学习多种不同的算法时进行选择?本研究通过启发生态学中多种物种共存的现象,提出在初始化时,神经网络包含多种解决方案(表示和算法),它们在资源限制的压力下相互竞争,最终选择出最适合的解决方案。研究以神经网络执行模块化加法为案例,发现不同 Fourier 频率下的圆形表示经历了这种竞争动力学,只有少数圆形表示最终存活下来。研究还发现,初始信号和梯度较高的频率能够更容易存活,并且通过增加嵌入维度,观察到更多存活频率。受描述物种动态的 Lotka-Volterra 方程启发,研究发现圆形表示的动态可以很好地用一组线性微分方程描述。我们对模块化加法的研究结果表明,可以将复杂表示分解为更简单的组件,以及它们的基本相互作用,以洞察表示的训练动态。
May, 2024
通过将输入点通过简单的傅里叶特征映射传递,使得多层感知机(MLP)能够学习低维问题领域中的高频函数。研究结果对计算机视觉和图形学领域中使用 MLP 表示复杂 3D 对象和场景的最新进展提供了启示。通过神经切比雪夫核(NTK)文献中的工具,我们展示了标准 MLP 在理论和实践中都无法学习高频的结论。为了克服这种频谱偏差,我们使用傅里叶特征映射将有效的 NTK 转换为带有可调节带宽的平稳核。我们提出了一种选择问题特定的傅里叶特征的方法,极大地提高了 MLP 在与计算机视觉和图形学相关的低维回归任务中的性能。
Jun, 2020
通过在 AI 和神经架构的最新进展中采用傅里叶变换,本研究报告将探索和回答有关此过程的基本问题。进一步地,我们展示了如何通过学习从头开始的神经架构,为音频信号处理应用程序学习这些内核,并发现神经架构不仅可以学习正弦内核形状,还可以发现各种令人难以置信的信号处理特性,例如窗函数、起始检测器、高通滤波器、低通滤波器、调制等。
Aug, 2023
通过引入递归算法,我们生成多项式方程,其共同零点对应于相应神经多丘道的 Zariski 闭包。此外,我们还利用度量代数几何的工具来研究训练这些网络的代数复杂度。我们的研究发现,此类网络的优化中的所有复杂临界点的数量等于 Segre 多样性的一般欧几里得距离度。值得注意的是,这个数量显著超过了具有相同参数数量的全连接线性网络的训练中遇到的关键点数量。
Jan, 2024