BriefGPT.xyz
Ask
alpha
关键词
overparametrized transformer networks
搜索结果 - 1
FinerCut: 大型语言模型的精细化可解释层修剪
基于超参数的 Transformer 网络是大规模语言模型的最新架构。本文提出了一种名为 FinerCut 的剪枝方法,它能够剪枝 Transformer 网络中的自注意力层和前馈神经网络层,以达到模型精简、可解释、多任务的剪枝效果。与之前
→
PDF
a month ago
Prev
Next