Jun, 2024

SimSMoE: 通过相似度测量解决表示崩溃问题

TL;DR给定一个固定的计算负载预算,基于相似性的稀疏专家混合模型 (SimSMoE) 解决了专家之间表示崩塌问题,提升了大型语言模型的性能和可伸缩性。