Jun, 2024

MCSD:一个具有多样融合的高效语言模型

TL;DR通过线性扩展和快速推理速度,MCSD 模型利用多渠道斜率和衰减(MCSD)块实现对特征的鲁棒表示,通过跨多样的时间感受野提取特征,并通过元素级融合多样的特征以增强细致的特征提取能力。此外,MCSD 块将推理过程表达为递归表示,大幅减少空间复杂度至 O (1),时间复杂度至 O (N),在基准测试中表现出与更大规模语言学习模型相当的性能,同时实现了 Transformers 无法匹及的更高吞吐量和更低的 GPU 内存消耗,使其成为边缘部署和实体化智能的有前途的基础模型。