bert compression | BriefGPT

关键词bert compression

搜索结果 - 4

持续同调是否能净化基于 Transformer 的黑盒模型？BERT 压缩的案例研究
使用持久同调来衡量每个神经元的重要性的 Optimus BERT 压缩和解释能显著压缩 BERT 模型，并使其适合在资源受限设备上部署，从而提供对其神经元的解释能力。
PDF7 months ago
面向任务无关的 BERT 压缩的权重继承蒸馏
本文介绍了一种基于 Weight-Inherited Distillation (WID) 的知识蒸馏方法，通过直接从教师模型继承权重实现对学生模型的压缩，避免了传统方法中需要设计额外对齐损失的问题，实验结果表明 WID 在 GLUE 和
PDFa year ago
ICLR探索预训练语言模型的极端参数压缩
探索利用张量分解实现更大的压缩比率来压缩 BERT 模型的研究，取得了可接受的性能损失并显著提高了推理效率，最高压缩至原模型的 1/48，且在 GLUE 基准测试中取得了与原模型相当或略优的表现，该方法相对于蒸馏等现有的压缩方法独立有效。
PDF2 years ago
DynaBERT: 带有自适应宽度和深度的动态 BERT
本文介绍了一种名为 DynaBERT 的新型动态 BERT 模型，其通过选择自适应宽度和深度来灵活调整模型大小和延迟，以达到不同硬件性能的要求，并通过知识蒸馏过程，从全尺寸模型到小子网络，实现自适应宽度和深度。综合实验表明，它具有可比较的性
PDF4 years ago