可伸缩的神经网络核

Oct, 2023

Scalable Neural Network Kernels

Arijit Sehanobish, Krzysztof Choromanski, Yunfan Zhao, Avinava Dubey, Valerii Likhosherstov

TL;DR我们介绍了可扩展的神经网络内核(SNNK)，它们是正常前馈层(FFLs)的替代品，能够近似表示后者，但具有有利的计算属性。SNNK有效地将输入从FFL的参数中分离出来，然后通过点积内核在最终计算中将它们连接起来。它们也更具表达力，能够模拟超出参数-输入矢量点积函数之外的复杂关系。我们还介绍了神经网络捆绑过程，将SNNK应用于压缩深度神经网络架构，从而获得额外的压缩收益。在其极端版本中，它导致完全捆绑的网络，其最优参数可以通过显式公式表示出来，适用于多个损失函数(例如均方误差)，开启了绕过反向传播的可能性。作为我们分析的产物，我们介绍了通用随机特征(URFs)机制，用于实例化多种SNNK变体，并在可扩展内核方法的背景下引发了有趣的研究。我们对所有这些概念进行了严格的理论分析，并进行了广泛的实证评估，包括点状内核估计和受SNNK启发的适配器层的Transformer微调。我们的机制可以将可训练参数的数量减少5倍，同时保持竞争力的准确性。

Abstract

We introduce the concept of scalable neural network kernels (SNNKs), the replacements of regular feedforward layers (FFLs), capable of approximating the latter, but with favorable computational properties. SNNKs effectively disentangle the inputs from the parameters of the neural netwo