自注意力神经网络的动力学平均场理论
通过对基于 Transformer 架构的大型语言模型进行研究,本文证明了在均场动力学中,无论高度非凸的参数分布的无限维损失曲面,均很温和,而 Wasserstein 梯度流几乎总是避免鞍点,这是对均场动力学的第一次鞍点分析,相关技术具有独立的研究价值。
Feb, 2024
通过使用路径积分的系统方法,我们研究了大尺寸随机神经网络的动态,除了推导动态均场方程,计算系统的李雅普诺夫指数,还首次计算了均值场方程波动谱,并从中推导出参数的稳定性条件及系统的有限尺度修正。
Sep, 2018
提出一种名为 SSA 的训练策略,该策略可以减少自注意力的内存和计算成本,同时提高泛化能力。该策略基于信息通路的假设,该信息通路可以独立训练,并能形成子模型,优于密集型自注意力模型在不同的 NLP,计算机视觉和图形学任务中表现优异。
Jun, 2023
本文将 Transformer 视为相互作用的粒子系统,描述了当权重不随时间变化时,学习表示的几何特征,证明了表示中的粒子会在时间趋于无穷时聚集到特定的极限对象,这取决于值矩阵的谱。同时,在一维情况下,证明了自我关注矩阵收敛于低秩布尔矩阵。这些结果的组合在数学上证实了 Vaswani 等人的经验观察,即在 Transformers 处理一系列标记时会出现 “leader”。
May, 2023
介绍了一种名为 DMFT 的物理工具,并使用通用随机神经网络作为例子,展示了 DMFT 的本质和基础物理。同时,同时讨论了相应的变体方法,比如动态空腔方法,并且详细介绍了求解 DMFT 方程的数值实现以及相关的应用和研究。
May, 2023
本文提出将 Transformer 理解为数值常微分方程 (ODE) 求解器,通过这一框架给出了一种新的改进 Transformer 的方案 ——Macaron Net,经过实验证明其在监督和非监督学习任务中优于 Transformer。
Jun, 2019
该研究探索了使用转换模型学习具有复杂非线性动态的网络中的 Granger 因果关系的潜力,以神经生物学和生物物理学网络为例;研究主要集中于基于模拟神经动力学的概念验证研究,结果表明,用于预测神经群体动力学的转换模型的交叉注意模块有效地捕捉到神经元之间的因果关系,准确性至少与最流行的 Granger 因果分析方法相当。尽管承认真实世界的神经生物学数据将带来进一步的挑战,包括动态连接性和未观察到的变化,但该研究对于转换模型在神经科学中因果表示学习的实用性提供了鼓舞人心的初步展示。
Nov, 2023
使用物理上知悉的神经网络方法来分析含有一种运动第一积分的非线性哈密顿系统,并提出了一种结构,将现有的哈密顿神经网络结构与 Adaptable Symplectic 循环神经网络相结合,可以在整个参数空间内预测动力学,保留哈密顿方程以及相空间的辛结构。同时,利用神经网络的高维非线性能力,结合 Long Short Term Memory 网络进行判断嵌入定理的实现,构造系统的延迟嵌入,并将拓扑不变吸引子映射到真实形式。该方法对于单参数势能有效,并且即使在较长时间内也能提供准确的预测结果。
Jul, 2023
通过马尔可夫链的角度研究变压器的序列建模能力,并在理论和实验上研究数据分布特性、变压器结构、学习分布和模型性能之间的相互作用。
Feb, 2024
利用长尾随机矩阵与非平衡统计力学理论,提出了 DNN 的新型平均场理论,并发现重尾权重使得 DNN 出现了一个拓展的临界区,体现了丰富的跨层传播动力学,进而赋予 DNN 突出的计算优势,这为设计高效神经网络结构提供了理论指导。
Mar, 2022