May, 2024

FinerCut: 大型语言模型的精细化可解释层修剪

TL;DR基于超参数的 Transformer 网络是大规模语言模型的最新架构。本文提出了一种名为 FinerCut 的剪枝方法,它能够剪枝 Transformer 网络中的自注意力层和前馈神经网络层,以达到模型精简、可解释、多任务的剪枝效果。与之前的工作相比,FinerCut 的效果优于大多数任务,无需微调或后剪枝重建。该方法还提供了可视化工具,以观察被剪枝的层的类型和位置,为未来高效的语言模型设计提供了灵感。