Dec, 2023

DSFormer: 通过密集稀疏权重分解实现文本 Transformer 的有效压缩

TL;DRDSFormer 是一种新型的低秩矩阵分解和半结构稀疏矩阵乘积方法,针对大型 Transformer 模型的成本效益问题提供了更强的效率 - 准确度平衡,并在自然语言理解任务中实现了比现有方法更高的压缩率和任务准确度。