BriefGPT.xyz
Ask
alpha
关键词
parameter compression
搜索结果 - 3
MiniLM: 预训练 Transformer 的深度自注意力蒸馏的任务无关压缩
本文通过对最后一层 Transformer 模型中的自我注意模块的蒸馏,提出了一种简单有效的压缩大型预训练模型的方法,同时引入了新的 “缩放点积” 深层自我注意知识,并在这个基础上设计了一个小留学生模型来减少参数量和延迟,实现了对 GLUE
→
PDF
4 years ago
知识蒸馏压缩生成对抗网络
本研究提出了使用知识蒸馏技术压缩生成对抗网络 (GANs) 参数的方法,使得在固定参数预算内,压缩后的 GANs 可以产生比标准训练方法更高质量的图像。我们观察到 GANs 的压缩有其定量的极限,并且过度参数化的 GANs 优化问题对交替梯
→
PDF
5 years ago
ACL
通过稀疏词表示压缩神经语言模型
本文提出使用稀疏单词表示来压缩神经语言模型的参数量,以减少计算资源需求并提高性能表现。
PDF
8 years ago
Prev
Next