- CDQuant: 使用贪婪协调下降的准确大型预训练模型的训练后权重量化
CDQuant 是一个简单且可扩展的替代 GPTQ 的算法,使用坐标下降法来实现高质量的量化权重,通过在 PaLM2 模型系列上进行广泛评估,我们证明 CDQuant 在各种模型规模和量化级别下始终优于 GPTQ。
- RankAdaptor: 针对结构修剪的层次动态低秩适应性建模
采用 RankAdaptor 的分层动态秩调度方法,有效地微调剪枝的大型语言模型 (LLM),在不增加训练参数的情况下,进一步减小剪枝模型恢复精度与原始模型之间的性能差距。
- 编码分布的学习压缩
提出一种动态适应编码分布以匹配特定输入中的潜在数据分布的方法,通过估计更好的编码分布,并将其作为附加的辅助信息比特流进行压缩和传输,而后解码器使用该编码分布来解压对应的潜在数据。该方法在标准全分解架构上能够获得 - 7.10% 的 Bjøn - 使用一种全能神经模型进行一遍式多形式和基础语音系统压缩与量化
我们提出了一种新颖的一次性多个 ASR 系统联合压缩和量化方法,使用一个全能模型。一个单独的压缩周期允许同时构建具有不同编码器深度、宽度和量化精度设置的多个嵌套系统,而无需单独训练和存储个别目标系统。实验证明,与等复杂度的单独训练系统相比, - LLM 中高效压缩 KV 头
在本文中,我们探索了 Key-Value 缓存的低秩特性,并提出了一种压缩 Key-Value 头部的新方法,该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能,为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。
- 用于匿名学习图像压缩的感兴趣区域损失
在公共空间使用人工智能不断引发对隐私和敏感数据保护的担忧,本论文介绍了一种使用定制损失函数的 ROI 来实现足够去识别化的方法,通过训练端到端优化的自编码器来实现压缩和去识别化,同时考虑了压缩率、延迟和对人脸和人物检测模型的影响。
- 位到光子:直接渲染的端到端学习可扩展点云压缩
我们提出了一种点云压缩方案,通过生成可直接解码为可渲染的 3D 高斯图像的比特流来解决从有损压缩的点云中解码和渲染高质量图像的问题。该方案显著提高了渲染质量,同时大幅度降低了解码和渲染时间,相比现有的点云压缩方法。此外,该方案生成可扩展的比 - VTrans:基于变分信息瓶颈剪枝的 Transformer 压缩加速
我们提出了 VTrans,一种迭代剪枝框架,通过变分信息瓶颈(VIB)原则引导,压缩所有结构组件,包括嵌入层、注意力头和层,以满足模型大小或计算约束,相比之前的方法实现了高达 70% 的压缩,并提出了更快的变体。在 BERT、ROBERTa - 智能无人系统中协作感知的任务导向无线通信
通过提出一个面向任务的无线通信框架,本文旨在共同优化通信方案和合作感知(Collaborative Perception, CP)过程,以解决实现 CP 所面临的关键挑战。研究提出了适应性压缩和强健融合方法,目的是在无线通信限制下提取和利用 - STAT:训练后的 Transformer 收缩
我们提出了 STAT 算法,一种简单的算法用于修剪 transformer 模型,而无需进行任何微调。STAT 通过计算下一层权重的修正来压缩网络中的注意力头和神经元,同时保持精度,并使用一系列有原则的矩阵分解方法来压缩网络结构。该算法仅需 - 利用 UltraGist 压缩长篇背景
压缩长度上下文的新方法 UltraGist 通过压缩和学习算法的创新设计,提高了对长上下文的高质量压缩,实现了压缩的灵活性、精细化压缩、训练样本有效利用和动态上下文的高效压缩。
- Athena:大规模语言模型的高效块级后训练量化方法,使用二阶矩阵导数信息
提出了 Athena 算法,通过使用损失函数的曲率信息,将参数分组并进行迭代优化量化过程,通过更新模型参数和 Hessian 矩阵,在保持高准确性的同时实现显著的压缩,从而成为在各种环境中部署大型语言模型的实用解决方案。
- OAC:用于准确的训练后量化的输出自适应校准
大语言模型的压缩和量化是一项重要的研究领域,本文提出了一种输出自适应校准的方法,用于减少压缩和量化过程中的信息损失,并在极低精度量化方面取得了优于现有方法的表现。
- ZipCache:准确高效的键值缓存量化与显著令牌识别
ZipCache 是一种用于 LLMs 的准确而高效的 KV 缓存量化方法,通过通道可分离的逐标记量化方案可显著减少量化参数的内存开销,并通过考虑注意力矩阵的下三角特性提出了规范化注意力分数作为识别重要标记的有效度量,以获得更高的压缩比,同 - IB-AdCSCNet: 自适应卷积稀疏编码网络受信息瓶颈驱动
本研究介绍了一种基于信息瓶颈理论的深度学习模型 IB-AdCSCNet,通过在梯度下降中动态调整交换参数 λ,优化压缩激发损失函数,实现压缩和拟合的最佳平衡。该模型不仅提供了一种一致性表现的模型,还融合了稀疏表示理论与深度学习的前沿视角。实 - MiniCache:大型语言模型的键值缓存深度维度压缩
通过对大型语言模型的键 - 值缓存进行压缩,以降低内存占用,并提高高吞吐量和优化压缩比率。
- JointRF:动态神经辐射场表示与压缩的端到端联合优化
我们提出了一种新的端到端联合优化方案,名为 JointRF,用于动态 NeRF 的表示和压缩,通过使用紧凑的残余特征网格和系数特征网格来处理大运动,同时减少时间冗余,并引入一个时空冗余压缩子网络以进一步减少时空冗余。大量实验证明,Joint - ReALLM:LLM 压缩与微调的通用框架
一种新颖的方法 ReALLM 用于对预训练语言模型进行压缩和内存高效自适应,包括大多数的后训练量化和微调方法,用于 4 位以下的预算。
- 通过知识蒸馏提升 GAN 效率的双方法策略:削减成本
本文提出了两种新方法:DiME 和 NICKEL,用于在资源受限环境中压缩生成对抗网络(GANs),这些方法能够有效地减少 GANs 的计算需求,并在压缩率极高的情况下仍保持生成质量。
- 使用隐式神经表示的点云压缩:一个统一框架
本论文介绍了一个能够处理几何和属性组件的点云压缩框架,利用两个基于坐标的神经网络来隐式表示体素化的点云,通过将空间划分为小的立方体并专注于非空立方体内的体素来重建原始点云的几何和属性组件。实验结果表明,与最新的 G-PCC 标准中采用的八叉