基于变形金刚 (Block-wise) 的模型比特压缩
提出使用 BCT 框架对 transformer 进行分块压缩的方法,以降低其巨大的计算资源和内存开销,通过在多个 GLUE 数据集上评估得出,在大多数任务中,BCT 可以实现不到 0.90%的准确性下降。
Apr, 2023
本文总结了压缩预训练 Transformer 模型的研究进展,尤其关注流行的 BERT 模型的最佳压缩实践和方法,提出未来发展的方向,以达到轻量、高准确性和通用性的自然语言处理模型。
Feb, 2020
Blockwise Parallel Transformer (BPT) is a distinct approach to address memory demands posed by the self-attention mechanism and the large feedforward network in Transformers, which enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods, and improves performance in language modeling and reinforcement learning tasks.
May, 2023
本文通过回顾相关学者先前的工作,系统地探讨了几个关键参数的影响。在此基础上,提出了一种名为 XTC 的简单而有效的压缩流程,它通过极端量化和层减少使模型尺寸降低了 50 倍,并在 GLUE 任务上实现了最新的最佳结果。
Jun, 2022
该研究对多个 Transformer 模型进行基准测试,展示了这些模型如何从新闻事件中判断情感。这个信号随后可用于下游建模和商品交易的信号识别。我们发现,在这一任务中,微调的 BERT 模型优于微调或原版的 GPT 模型。研究还提出了 CopBERT 模型,它在域特定的 BERT 训练模型(如 FinBERT)的性能上表现更好。综上所述,BERT 模型可能不会成为下一个 XGboost,但对于需要融合可解释性和准确性的金融工程任务来说,它代表了一个有趣的选择。
Apr, 2024
BlockBERT 为一个高效的 BERT 模型,引入了稀疏块结构,以更好的建模长距离依赖关系,在语言模型预训练和基准问答数据集上进行了实验。与 RoBERTa 模型相比,BlockBERT 可以节省大约 27.8% 的推理时间,并具有可比甚至更好的预测准确性。
Nov, 2019
本篇论文提出了一种混合模型压缩方法 LadaBERT,结合权重剪枝、矩阵分解和知识蒸馏等技术,可以在保持较高准确性的同时将训练开销减少一个数量级。LadaBERT 是一种适用于在线服务的轻量级 BERT 模型,可以更好地满足用户请求的低延迟需求。
Apr, 2020
本文提出了一种全二值化 BERT(BiBERT)模型,通过有效的双向 attention 结构来最大化表示信息的统计信息,并引入方向匹配蒸馏方案在 BERT 全二值化后准确优化,证明了比现有量化 BERT 性能更好,在计算资源有限的情况下可以显着节省 FLOPs(56.3 倍)和模型大小(31.2 倍)。
Mar, 2022
BitNet 是一种可扩展且稳定的 1 位 Transformer 架构,用于大型语言模型,通过引入 BitLinear 作为 nn.Linear 层的替代方案,BitNet 可以从零开始训练 1 位权重,实验结果表明,与最先进的 8 位量化方法和 FP16 Transformer 相比,BitNet 在语言建模方面能够达到有竞争力的性能,同时大幅减少内存占用和能源消耗,此外,BitNet 表现出与全精度 Transformer 类似的扩展规律,说明它具有在保持高效和性能优势的同时,有效扩展到更大的语言模型的潜能。
Oct, 2023