BriefGPT.xyz
大模型
Ask
alpha
关键词
bert compression
搜索结果 - 4
持续同调是否能净化基于 Transformer 的黑盒模型?BERT 压缩的案例研究
使用持久同调来衡量每个神经元的重要性的 Optimus BERT 压缩和解释能显著压缩 BERT 模型,并使其适合在资源受限设备上部署,从而提供对其神经元的解释能力。
PDF
7 months ago
面向任务无关的 BERT 压缩的权重继承蒸馏
本文介绍了一种基于 Weight-Inherited Distillation (WID) 的知识蒸馏方法,通过直接从教师模型继承权重实现对学生模型的压缩,避免了传统方法中需要设计额外对齐损失的问题,实验结果表明 WID 在 GLUE 和
→
PDF
a year ago
ICLR
探索预训练语言模型的极端参数压缩
探索利用张量分解实现更大的压缩比率来压缩 BERT 模型的研究,取得了可接受的性能损失并显著提高了推理效率,最高压缩至原模型的 1/48,且在 GLUE 基准测试中取得了与原模型相当或略优的表现,该方法相对于蒸馏等现有的压缩方法独立有效。
PDF
2 years ago
DynaBERT: 带有自适应宽度和深度的动态 BERT
本文介绍了一种名为 DynaBERT 的新型动态 BERT 模型,其通过选择自适应宽度和深度来灵活调整模型大小和延迟,以达到不同硬件性能的要求,并通过知识蒸馏过程,从全尺寸模型到小子网络,实现自适应宽度和深度。综合实验表明,它具有可比较的性
→
PDF
4 years ago
Prev
Next