Feb, 2024

神经修剪:一种用于大型语言模型的基于神经网络的拓扑稀疏训练算法

TL;DR基于 Transformers 的语言模型在自然语言处理中表现出色,但训练和推理仍然是一个重要的障碍。我们通过神经网络的角度来探索稀疏性方法,利用生物网络中的机制,如优先连接和冗余突触修剪,展示了基于模型的稀疏性方法在多样的 NLP 任务中表现出色,并且在训练时间上可快速到 10 倍,同时在许多情况下推理时间也有明显的改善。