具有自我关注前馈神经单元的显式基础模型优化
基于反向传播的迭代微分逼近方法使得神经网络的优化成为可能,但目前仍然计算代价高昂,尤其是在大规模训练模型时。本文提出了一种计算效率高的神经网络优化替代方案,既能降低神经网络的扩展成本,又能为低资源应用提供高效的优化。通过数学分析其梯度,我们推导了一个明确的解决方案用于简单的前馈语言模型 (LM)。该解决方案可以推广到基于正值特征训练的所有单层前馈 softmax 激活神经模型,我们通过将该解决方案应用于 MNIST 数字分类问题进行了验证。在 LM 和数字分类器的实验中,我们发现在计算上,明确的解决方案可以接近最优解,同时证明了:1) 迭代优化对明确解决方案参数的改进仅有微小影响,2) 随机初始化参数通过迭代优化逐渐趋向于明确的解决方案。我们还初步将明确的解决方案局部应用于多层网络,并讨论了随着模型复杂性增加的解决方案的计算节约。对于明确解决方案的单层和多层应用,我们强调仅通过反向传播无法达到这些最优解,即只有在应用明确解决方案后才能发现更好的最优解。最后,我们讨论了解决方案的计算节约以及它对模型可解释性的影响,并提出了为推导复杂和多层体系结构的明确解决方案的未来方向。
Nov, 2023
通过结构化的前馈网络,使用线性层近似来减少大型语言模型的参数数量和计算成本,同时提出一种自我引导训练的方法来改善这种近似所表现出的训练动力学,从而在训练和推断中实现高效和有效的结果。
Jun, 2024
我们介绍了快速前馈(FFF)架构,它打破了层大小与推理成本之间的线性关系,通过引入对数时间的前馈网络的替代方案。我们展示了 FFF 在推理成本的指数分数上表现出与前馈网络相当的性能,与专家混合网络相比更快地提供性能,并且可以在 transformers 中取代它们。将 FFF 推到极限,我们训练了一个视觉 transformer,在只有 5.8% 性能下降的成本下执行单神经元推理。我们的实现可作为 Python 包使用,只需运行 “pip install fastfeedforward” 即可。
Aug, 2023
提出了一种名为显式稀疏 Transformer 的新模型,其通过选择最相关的片段来改进全局上下文的注意力集中度,展示了在自然语言处理和计算机视觉任务方面的优越表现,并实现了与稀疏注意力方法可比或更好的结果,但显著减少了训练和测试时间。
Dec, 2019
本文针对宽且深的 Transformer 模型中的正反向信号传播进行了有效理论分析,提出了相应的模型初始化和训练超参数的宽度缩放建议,最终在实际场景中训练了视觉和语言的 Transformer 模型
Apr, 2023
该研究提出了一种新的模型,该模型仅由注意力层组成。在具体实现中,加入了持续性存储向量来代替前馈层,这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示,该模型在标准字符和词级语言建模基准上表现出良好的效果。
Jul, 2019
在这篇研究论文中,我们提出了一种新的机器学习方法,通过在训练过程中动态地调整神经网络的架构来解决架构选择和优化问题,从而避免了需要进行昂贵的架构参数优化。我们通过从反向传播中提取信息来检测和解决功能梯度路径上的表达能力瓶颈,从而实现可扩展性并优化训练过程,展示了在 CIFAR 数据集上与大型神经网络准确性相匹配的结果,并在竞争性训练时间内消除了标准架构超参数搜索的需要。
May, 2024
本研究中,作者探讨了一种名为 Forward-Forward 的训练神经网络的方法,与传统的 Backpropagation 背向算法相比,它采用了本地学习规则。作者通过实验发现,使用 Forward-Forward 算法进行训练所得到的神经网络内部表示可以组织成强健的、类别特定的合奏,并且由极少量的活跃单元(高稀疏度)组成,这与感官处理期间皮层表示的观察结果非常相似。这表明在模拟皮层学习方面,Forward-Forward 算法提出的学习过程比 Backpropagation 更优秀。
May, 2023
本文分析了 S-FFN 这种大而稀疏的前馈网络的两个主要设计选择:内存块(或专家)大小和内存块选择方法,并提供了它们相对有效性和效率的见解。在语言建模前训练中,我们发现一种更简单的选择方法 ——Avg-K,通过均值聚合隐藏状态选择块,可以比现有的 MoE 架构实现更低的困惑度。
May, 2023