Jan, 2024

参数高效稀疏构建:从密集到专家组的混合用于一般任务上的指令调整

TL;DR通过稀疏模型结构和专家混合的方法,我们提出了一种名为 PESC 的新方法,使得模型能够在指令调整阶段扩展容量,从而在多个任务上提高性能,并且通过最小化参数增加量来降低计算成本和 GPU 内存要求。实验证明,使用 PESC 的稀疏模型在功能上优于其他开源稀疏模型并且比 GPT3.5 具有更优秀的整体性能。