基础模型的无损和接近无损压缩

Apr, 2024

Lossless and Near-Lossless Compression for Foundation Models

Moshik Hershcovitch, Leshem Choshen, Andrew Wood, Ilias Enmouri, Peter Chin...

TL;DR我们研究了一种传统的模型压缩方法，即无损压缩，表明这种方法在流行的模型上可以显著减少网络和存储需求，并引入了一种可调节的有损压缩技术，进一步减小模型的大小。

Abstract

With the growth of model sizes and scale of their deployment, their sheer size burdens the infrastructure requiring more network and more storage to accommodate these. While there is a vast literature about reducing model sizes, we investigate a more traditional type of compression -- one that compresses the model to a smaller form and is coupled with a deco

model compression lossless compression network reduction storage reduction tunable lossy compression

发现论文，激发创造

L2 后训练模型大小压缩

通过统一的参数化权重转换和可微分计数器，提出了一个后训练模型大小压缩方法，可以同时进行有损和无损压缩，实现了稳定的 10 倍压缩比和短时间内 20 倍压缩比。

Aug, 2023

有损压缩用于无损预测

本文利用无监督目标设计神经压缩器进行图像压缩，以满足具有数据增强特征的所有预测任务的高性能，实现了大幅度节省数据率的效果，同时不会降低下游分类性能。

Jun, 2021

Transformer 压缩综述

在该研究中，作者通过综述了解压缩方法对 Transformer 模型在自然语言处理和计算机视觉领域的应用，并对修剪、量化等压缩方法进行了分类和讨论。

Feb, 2024

了解机器学习训练集中无损压缩的有效性

对机器学习和人工智能在高性能计算中的应用，数据压缩对模型质量的影响以及现代有损压缩方法的优势进行了系统评估，指出了指导将来使用和设计有损压缩器的关键见解。

Mar, 2024

语言建模即压缩

通过压缩模型来解决预测问题和训练大型语言模型的相关研究，大型语言模型展现出强大的预测和压缩能力，此视角为规模定律、分词和上下文学习提供了新的观点，并且可以使用任何压缩器构建条件生成模型。

Sep, 2023

Weightless：深度神经网络压缩的有损权重编码

提出一种名为 Weightless 的新颖方案，其基于 Bloomier 过滤器并结合传统压缩技术，在不影响模型准确性的前提下，可以将深度神经网络的内存占用降低至原来的 1/496，较现有技术获得了 1.51 倍的提升。

Nov, 2017

重新审视脱机压缩：超越基于分解的方法，针对 Transformer 语言模型

本篇文章旨在探讨离线压缩方法，并提出了一种基于自编码器的新框架，旨在压缩 transformer 语言模型。实验证明，启用模块间的协作并使用所提出的方法能够显著提高模型性能。

Feb, 2023

大型语言模型的模型压缩与高效推理：调研

这篇论文研究了大型语言模型的压缩和高效推理方法，介绍了分类为量化、修剪、蒸馏、紧凑架构设计和动态网络的压缩和加速算法，并提出了中型模型和真正大型模型的区分。此外，还介绍了一些用于大型模型高效推理的成熟框架，可以支持基本的压缩或加速算法，极大地方便了用户的模型部署。

Feb, 2024

通过数据压缩评估大型语言模型的泛化能力和鲁棒性

我们提出了一种基于无损数据压缩的评估方法，用于测试模型训练截断后的预测能力广义化情况。我们收集了从 2017 年到 2023 年的 83 个月的全面测试数据，并根据模型的训练数据截断将数据分为训练和测试期。我们通过测试期的压缩性能作为对未见数据广义化的度量，以及训练期和测试期之间的性能差距作为鲁棒性的度量来进行测量。实验测试了 14 种具有各种规模的代表性大型语言模型，包括维基百科、新闻文章、代码、arXiv 论文和多模态数据。我们发现许多模型的压缩率在其截断日期后显著降低，但 Mistral 和 Llama-2 等模型在性能和鲁棒性之间取得了良好的平衡。结果还表明，模型在新闻和代码数据上很难广义化，但在 arXiv 论文上表现特别好。我们还发现上下文大小和标记化实现对整体压缩性能有很大影响。

Feb, 2024

深度神经网络无损压缩

本文介绍了一种名为 LEO 的算法，该算法利用混合整数线性规划技术在线性行为上识别修正线性单元，以便使用 L1 规则进行训练，从而实现在有限计算资源下实现神经网络无损压缩。

Jan, 2020