Jun, 2024

预训练变换器的矩阵分解方法的实证研究

TL;DR通过比较传统的低秩分解与最近引入的 Monarch 分解,我们在 Transformer 压缩技术方面提出了一个全面的分析,发现低秩分解在不同压缩比和六个文本分类任务中始终优于 Monarch 分解。