无需重新训练的基于 Transformer 的模型块压缩
该研究提出了一种名为 BBCT 的方法,用于对 Transformer-based models 进行块状位压缩,以减少其对计算的需求和内存的占用。经过在 BERT 上的测试,BBCT 可以在保持精度的前提下显著减少模型的计算和内存占用。
Mar, 2023
本文总结了压缩预训练 Transformer 模型的研究进展,尤其关注流行的 BERT 模型的最佳压缩实践和方法,提出未来发展的方向,以达到轻量、高准确性和通用性的自然语言处理模型。
Feb, 2020
Blockwise Parallel Transformer (BPT) is a distinct approach to address memory demands posed by the self-attention mechanism and the large feedforward network in Transformers, which enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods, and improves performance in language modeling and reinforcement learning tasks.
May, 2023
本文通过回顾相关学者先前的工作,系统地探讨了几个关键参数的影响。在此基础上,提出了一种名为 XTC 的简单而有效的压缩流程,它通过极端量化和层减少使模型尺寸降低了 50 倍,并在 GLUE 任务上实现了最新的最佳结果。
Jun, 2022
探索利用张量分解实现更大的压缩比率来压缩 BERT 模型的研究,取得了可接受的性能损失并显著提高了推理效率,最高压缩至原模型的 1/48,且在 GLUE 基准测试中取得了与原模型相当或略优的表现,该方法相对于蒸馏等现有的压缩方法独立有效。
May, 2022
本文提出了一种使用渐进模块替换的新型模型压缩方法来有效压缩 BERT。通过在训练中逐步增加替换的概率,使得我们的方法在原始和紧凑模型之间带来了更深入的交互,同时不需要引入任何额外的损失函数,在 GLUE 基准测试中,我们的方法优于现有的知识蒸馏方法,展示了一种新的模型压缩视角。
Feb, 2020
本研究引入了三种变体(ParallelGPT、LinearlyCompressedGPT 和 ConvCompressedGPT)来修改解码器专用的 Transformer 架构,这些变体在代码生成任务中取得了可比较的性能,同时具有模型尺寸较小和训练时间更快的优势。
Apr, 2024
本篇论文提出了一种混合模型压缩方法 LadaBERT,结合权重剪枝、矩阵分解和知识蒸馏等技术,可以在保持较高准确性的同时将训练开销减少一个数量级。LadaBERT 是一种适用于在线服务的轻量级 BERT 模型,可以更好地满足用户请求的低延迟需求。
Apr, 2020