- 基于流形对齐的层合并压缩 LLM
使用流形学习和归一化成对信息瓶颈测量方法的基于流形知识对齐和层合并的压缩(MKA)方法,成功降低模型大小并保持性能,在多个基准数据集和各种大语言模型中取得显著的压缩比,并且在与量化结合时,能够实现更大的压缩,提供了一种资源高效且性能保持的大 - 通过统一框架解构混合专家的压缩
大规模语言模型的扩展已经在不同领域取得了革命性的性能,但模型规模的持续增长为实际应用带来了重大挑战。本文通过动态选择和激活仅一部分专家的混合专家(MoE)方法,显著减少计算成本同时保持高性能。我们提出了一个创新的统一框架来压缩 MoE,该框 - ContextGS: 带有锚定层上下文模型的紧凑三维高斯分层处理
通过引入上下文模型在锚点级别进行 3D 高斯点片重建表示,相比于标准 3D 高斯点片重建和最新的最先进的 Scaffold-GS 方法,我们的工作实现了超过 100 倍的尺寸减小,并达到可比甚至更高的渲染质量。
- 自适应神经图像的极度压缩
该研究论文以压缩神经场为中心,介绍了自适应神经图像(ANI)的方法,能够在不损失细节和保持保真度的情况下将神经图像的每个像素位数降低了 4 倍,为发展压缩神经场提供了一个新框架。
- ACL大型语言模型的量化对置信度的影响
近期的研究引入了通过事后训练量化或低位权重表示来进行大语言模型(LLMs)有效压缩的技术。尽管量化权重提供了存储效率和更快推理的优势,但现有研究指出,量化可能损害性能并加剧 LLMs 中的偏见。本研究通过考虑语言模型类型和规模等因素,调查了 - COLING多语言脑外科医生:可压缩大型语言模型,保留全部语言
本研究介绍了一种新颖的多语言 LLM 压缩方法 ——Multilingual Brain Surgeon(MBS),它通过按照模型训练数据集中语言分布的比例对各种语言进行校准数据抽样,克服了现有方法中以英语为中心的限制,并改善了现有英语为中 - ICLR当小的更小时会发生什么?探究对小数据预训练语言模型进行压缩的影响
压缩技术对小规模数据语言模型的效率和效果具有显著改善作用,证实了对大规模参数化模型的压缩效果的普遍观点同样适用于小规模数据模型。
- HAC:基于哈希网格辅助的三维高斯点云压缩
通过建立二进制哈希网格以揭示锚点的内在空间关系,我们提出了一种哈希网格辅助的上下文(HAC)框架,实现高度紧凑的 3D 高斯填充(3DGS)表示,从而在与原始 3DGS 相比显著减小尺寸超过 75 倍的同时,提高保真度,并在与最先进的 3D - 解码压缩的信任:压缩下高效 LLM 的可信度审查
通过评估三个领先的大型语言模型在八个可信度维度上使用五种最先进的压缩技术的结果,本研究发现,与剪枝相比,量化在同时实现高效和可信性方面更具有效性。此外,适度位数范围内的量化可以意外地提高某些可信度维度,例如道德和公平性。这些发现提供了在大型 - 技能:相似度感知的语音自我监督学习知识蒸馏
通过引入 SKILL 方法,本文在自我监督学习研究领域提出了一种新的方法,通过层分组而非个别层进行知识蒸馏,实验结果表明,我们的 WavLM Base + 的蒸馏版本不仅优于 DPHuBERT,还在 30M 参数模型类的多个任务中达到了最先 - 生物识别应用中的模型压缩技术综述
深度学习算法在提高人类任务自动化能力方面发挥了重要作用,然而,这些模型性能的巨大提升与其日益复杂性高度相关,限制了它们在以人为本的应用中的实用性,而这些应用通常部署在资源受限的设备上。因此,我们需要压缩技术来大幅减小深度学习模型的计算和内存 - FlightLLM: 基于 FPGA 的高效大型语言模型推断及其完整映射流程
该研究论文提出了一种基于 FPGA 的 FlightLLM 方法,通过利用 FPGA 特定资源和创新解决方案,实现了大规模语言模型(LLMs)的高效推理,包括压缩技术、计算效率、内存带宽和编译开销等方面的优化。在实验中,该方法在 Xilin - 面向轻量通信设计的联邦学习压缩
本文研究压缩技术对典型图像分类任务的联邦学习的影响,并证明了一种简单的方法可以在保持不到 1% 准确率损失的同时压缩 50% 的消息,与最先进的技术相媲美。
- eDKM:一种高效准确的大型语言模型训练时权重聚类
提出了一种内存高效的 Differentiable KMeans Clustering 实现,eDKM,通过新技术降低 DKM 的内存占用量,成功将预训练的 LLaMA 7B 模型从 12.6 GB 压缩到 2.5 GB,并在广泛的 LLM - Maestro: 通过可训练分解揭示低秩结构
设计高效的低秩模型,通过一种广义的 Ordered Dropout 方法将低秩结构内嵌到训练过程中,实现对深度神经网络进行可训练的低秩层插入,从而提取出足够小的模型,保持模型性能并允许在不同性能设备上进行准确性和延迟的权衡。
- 深度神经网络剪枝调查 —— 分类、比较、分析和建议
现代深度神经网络中,网络压缩已成为一项重要研究方向。本文通过综述现有文献,详细介绍了深度神经网络剪枝的研究方法、剪枝的不同层次以及未来发展方向,并提出了有价值的推荐建议。
- ICML用于高效语言模型微调的 NTK - 逼近 MLP 融合
通过使用神经切向核(NTK)逼近多层感知器模块(MLP)的预训练语言模型(PLM),提出了一种轻量级 PLM 压缩方法,通过重新考虑 MLP 作为子 MLP 集合并将其聚类为给定数量的重心,进而恢复为压缩的 MLP,惊人地显示出良好逼近原始 - PIQI:基于高斯过程回归集成的感知图像质量指数
本文提出了一种基于感知的数字图像质量评估方法 —— 无参考感知图像质量指数(PIQI),来评估数字图像的质量。通过计算多个尺度和颜色空间中的亮度、梯度统计信息以及均值减法对比规范化乘积,将这些提取出的特征提供给高斯过程回归(GPR)的堆叠集 - 神经网络模型压缩的保证量化误差计算
本文介绍了一种神经网络压缩技术方法,建立了一个混合神经网络,由一个前馈神经网络和其量化版本组成,通过优化和可达性分析方法计算了保证的量化误差。 数值例子验证了该方法的适用性和有效性。
- 卷积神经网络的先验压缩在波模拟器中的应用
本文提出使用压缩张量格式的卷积层、使用单向滤波器替代卷积层的三向 / 二向滤波器等方式压缩卷积神经网络模型,减少参数数量,从而降低内存占用,在预测时间和训练时间上表现良好。同时,文章将此技术应用于预测有限元物理数据。