Oct, 2021

GPT 压缩的 Kronecker 分解

TL;DR本研究使用 Kronecker 分解压缩 GPT-22 模型的线性映射,并使用该技术训练得到一种新型的神经语言模型 KnGPT2,该模型在经过有效预训练后,可在具有相同参数数量的情况下,优于现有的 DistilGPT2 模型,在语言建模和通用语言理解评估基准任务上均取得了显著的成绩。