- 基于流形对齐的层合并压缩 LLM
使用流形学习和归一化成对信息瓶颈测量方法的基于流形知识对齐和层合并的压缩(MKA)方法,成功降低模型大小并保持性能,在多个基准数据集和各种大语言模型中取得显著的压缩比,并且在与量化结合时,能够实现更大的压缩,提供了一种资源高效且性能保持的大 - FLoCoRA:具有低秩适应性的联邦学习压缩
在此研究中,我们展示了 Low-Rank Adaptation 方法在从头开始训练小尺寸视觉模型的联邦学习中的应用,通过提出一种聚合不可知方法 FLoCoRA,我们证明该方法能够减少通信成本 4.8 倍,并且对于具有 ResNet-8 模型 - SDQ:稀疏分解量化用于 LLM 推断
借助 SDQ 的结构稀疏性和量化方法,可以实现高计算和内存效率,并且在性能上只有不到 1% 的质量损失。
- 在多任务口语语言理解模型中寻找任务特定的子网络
通过神经网络剪枝,在多任务语言理解模型中找到特定任务的子网络,实现模型压缩和在新数据上适应能力的提升。
- CVPRPC-LoRA:基于知识蒸馏的逐步模型压缩的低秩适应
逐步压缩低秩适应(PC-LoRA)方法通过低秩适应同时进行模型压缩和微调,最终仅保留低秩适配器以取代预训练权重,实现了参数和计算量的压缩。
- EncCluster: 通过权重聚类和概率过滤在联邦学习中实现可扩展的功能加密
EncCluster 是一种新方法,通过权重聚类与最近的去中心化 FE 和增强隐私数据编码相结合,提供强大的隐私保证,同时不影响模型性能或增加客户端负担,并通过减少通信成本和加速加密来提高效率。
- 混合专家后训练量化的研究:一个基准评估
大型语言模型的研究中,Mixture-of-Experts(MoE)方法通过稀疏激活以更少的计算 FLOPs 实现了对 LLMs 的有效扩展,但是由于显著的内存开销,在直接应用于 MoE 模型时,后训练量化的常规方法效果较差。本文所做工作在 - DistilDoc: 视觉内容丰富文档应用的知识蒸馏
针对视觉丰富的文档应用(如文档布局分析和文档图像分类),本文探讨了知识蒸馏(KD)。通过设计一种 KD 实验方法,我们研究了不同架构和容量的骨干模型之间的知识传递策略对教师 - 学生知识差距的影响,并发现一些方法可以始终优于监督学生训练。此 - ICML加权低秩逼近的重新加权解
通过使用权重矩阵本身进行矩阵重新加权,我们提出了一种放松的 WLRA 解法,该方法可以输出一个并非低秩矩阵,但可以使用非常少的参数进行存储,并在权重矩阵具有低秩时给出可证明的近似保证。此外,我们的算法在模型压缩和合成数据集方面展现出非常出色 - 基于脉冲活动修剪的高效深度脉冲神经网络构建
基于脉冲神经网络(SNN)的结构稀疏化,提出了一种基于卷积核活动水平的结构删减方法,通过动态调整网络结构使其更适应当前目标任务,提高模型的适应性、降低计算负载和加速推理过程。
- 基于特征方差的鲁棒知识蒸馏:抵抗带后门的教师模型
RobustKD 是基于特征差异的鲁棒知识蒸馏方法,通过压缩模型并减少学生模型和教师模型之间的特征差异,实现了学生模型的性能和后门缓解的双重目标。
- LCQ: 基于低秩码本的大语言模型量化
大型语言模型在许多任务中展现出有希望的性能,然而,高存储和计算成本成为部署大型语言模型的挑战。本文提出了一种新的称为基于低秩码簿的量化方法(LCQ)用于大型语言模型的权重量化,通过采用秩大于一的低秩码簿,LCQ 在基本不增加存储成本的情况下 - 稀疏性与量化的有效相互作用:从理论到实践
深度神经网络的模型压缩是提高计算效率和减小内存占用的必要手段。本文通过数学证明和实证研究,发现在计算操作中先应用稀疏化再进行量化是最优的操作次序,以最小化计算误差。同时,稀疏化和量化的相互作用会对模型精度造成重要的影响,其中量化误差在这一降 - 双稀疏训练框架:通过转换的 L1 正则化诱导激活图稀疏性
本研究论文介绍了一种基于转换的 l1 正则化方法来诱导激活图的稀疏性,以改善激活稀疏诱导领域的研究。同时,本方法与传统修剪结合,构成了双稀疏训练框架。实验结果表明,该方法在大多数模型和相应数据集上可以实现超过 20% 的激活图稀疏度提升,同 - subMFL:设备异构环境下适应性子模型生成的联邦学习
该研究提出了一种模型压缩方法,允许计算能力不同的设备参与联邦学习过程,从而提高资源受限设备的参与率,并保持先前轮次训练的权重,使生成的次模型在保持准确性的同时能够共享,提高参与度约 50%。
- 奥卡姆梯度下降
通过应用学习理论,我们提出了 Occam 梯度下降算法,同时降低神经网络的拓扑结构大小和权重,从而在准确度、计算和模型压缩方面优于传统梯度下降算法。
- KDD点击率预测的统一低秩压缩框架
通过低秩压缩模型,本研究提出了一种统一的压缩 CTR 预测模型的方法,实现了模型尺寸减小、推理速度加快、AUC 提高等优势。
- 基于选取:预训练大型语言模型的低秩分解与目标应用
通过低秩分解方法,我们可以削减大型语言模型的冗余组件,压缩模型大小并保持与最先进压缩技术相当的准确性。
- AdaKD:使用自适应损失加权的 ASR 模型动态知识蒸馏
本文提出了一种自适应知识蒸馏技术,通过课程学习的启发,以实例级别自适应地加权损失,并实验证明该方法优于传统的知识蒸馏方法和现有的实例级别损失函数。
- 语言模型中低秩分解的精度 - 效率权衡特征化
大规模语言模型的压缩方法如量化和参数修剪在减小模型的内存占用和流量上进行了积极探索,本研究通过对低秩分解方法,特别是 Tucker 分解,在近期语言模型上的研究,包括一个开源的语言模型 Llama 2,详细分析和评估了准确性和效率之间的平衡