TL;DR如何在不牺牲性能的情况下减少神经网络的计算和内存需求?本研究提出了sparse Mixtures of Experts方法,通过一种综合框架将各种方法整合在一起以近似两层神经网络,并提出方法来改进这种方法,这样可以使大型语言模型在资源利用方面更加高效。
Abstract
How to reduce compute and memory requirements of neural networks (NNs) without sacrificing performance? Many recent works use sparse mixtures of experts (MoEs) to build resource-efficient large →