Dec, 2023
PanGu-$π$: 通过非线性补偿提高语言模型架构
PanGu-$π$: Enhancing Language Model Architectures via Nonlinearity Compensation
Yunhe Wang, Hanting Chen, Yehui Tang, Tianyu Guo, Kai Han...
TL;DR我们分析了现有的语言模型架构,发现特征崩溃问题,然后根据理论分析提出了一种增强语言模型非线性的新的高效模型架构,命名为 PanGu-$\pi$,并通过实验证明了其在效率和准确性方面的优势。