Oct, 2023

高效变换器的基于近似的两层前馈网络

TL;DR如何在不牺牲性能的情况下减少神经网络的计算和内存需求?本研究提出了sparse Mixtures of Experts方法,通过一种综合框架将各种方法整合在一起以近似两层神经网络,并提出方法来改进这种方法,这样可以使大型语言模型在资源利用方面更加高效。