基于信息论的模型压缩对群体风险改进的理解

ICMLJan, 2019

基于信息论的模型压缩对群体风险改进的理解

Information-Theoretic Understanding of Population Risk Improvement with Model Compression

Yuheng Bu, Weihao Gao, Shaofeng Zou, Venugopal V. Veeravalli

TL;DR通过压缩模型，平衡泛化误差的减小和经验风险的增加，从而证明模型压缩可以提高预训练模型的总体风险，同时推荐使用 Hessian-weighted K-means 聚类压缩方法进行正则化，通过神经网络的实验进一步验证了理论结论。

Abstract

We show that model compression can improve the population risk of a pre-trained model, by studying the tradeoff between the decrease in the generalization error and the increase in the →

model compression generalization error empirical risk regularization hessian-weighted k-means

发现论文，激发创造

压缩、泛化和学习

本文提出了一种新的理论，可以控制压缩函数（称为 “风险” 的压缩函数的改变概率），并证明了压缩集合的基数是风险的一致估计量的条件。结果可用于不需要先验知识的全面无偏配置中。这些结果不仅可用于完全了解驱动方法的信任，而且在学习技术中，还可以作为超参数调整的工具。

Jan, 2023

模型剪枝的信息论理论解释

本文探讨了神经网络压缩问题，利用率失真理论解释了压缩比和神经网络性能之间的张力，提出了一种压缩和失真之间的折衷方法，并通过该理论分析表明模型剪枝是好的压缩算法的一部分，最后，提出了一种基于信息理论的剪枝策略并在 CIFAR-10 和 ImageNet 数据集上显示出其优越性。

Feb, 2021

模型压缩的失真率研究：从理论到实践

本文研究深度神经网络模型压缩技术，提出了基于速率失真理论的压缩架构以及优化剪枝和量化技术，理论上证明了该架构对于一层 ReLU 神经网络最优，实验证明该方法在压缩 - 精度平衡上显著优于基线方法。

Oct, 2018

贝叶斯压缩回归

本文提出一种基于随机压缩预测变量的高维回归方法，并使用模型平均来减少方法对于随机投影矩阵的敏感度，可用于实际数据应用。

Mar, 2013

在语言模型中桥接信息论压缩与几何压缩

通过分析语言模型（LM）中的压缩方法，从几何和信息论的角度，我们证明这两种视角高度相关，表明语言数据的内在几何维度可以预测其在 LM 下的编码长度，进而表明语言信息压缩能力是成功 LM 性能的重要组成部分。同时，我们还评估了一系列首次应用于语言数据的特征维度估计器，表明只有其中的一部分能够概括信息论压缩、几何压缩和适应性关系。

Oct, 2023

模型压缩与对抗鲁棒性的关系：当前证据综述

增加模型容量是增强深度学习网络对抗性鲁棒性的已知方法之一，而剪枝和量化等压缩技术则可以减小网络的大小同时保持准确性。本研究总结了现有证据并讨论了观察到的效果可能的解释。

Nov, 2023

模型压缩能提高自然语言处理的公平性吗

本文首次研究了模型压缩技术对生成性语言模型的毒性和偏见的影响，我们在 GPT2 模型上测试了知识蒸馏和剪枝方法，发现模型蒸馏后有毒性和偏见的减少，这个结果可以被解释为模型压缩的正则化技术，我们的工作不仅可以作为压缩模型安全部署的参考，而且将 “压缩作为正则化” 的讨论扩展到了神经语言模型领域，并暗示了使用压缩来开发更加公平的模型的可能性。

Jan, 2022

最小通信成本的统计学习

本文提出了一种联合训练和源编码方案，具有可验证的期望保证，通过在条件分布和先验之间施加适当的 Kullback-Leibler 散度约束，同时保证了小的平均经验风险（即训练损失），小的平均泛化误差和小的平均通信成本。

Jun, 2024

大型语言模型中模型压缩对社会偏见的影响理解

大型语言模型通过自我监督在大规模网络文本上进行训练，模型对文本的社会偏见进行了合适的拟合。尽管需要介入以减轻预训练过程中学到的不适当的社会偏见对模型预测结果的影响，但在这两个方法之间的相互作用方面，目前的研究工作还不充分。本研究对量化和知识蒸馏的模型压缩方法在语言模型的社会偏见衡量方面进行了仔细的对比研究，结果表明，较长的预训练时间和较大的模型会导致更高的社会偏见，而量化方法在约为原始预训练时间的 20% 处展现了最佳的折衷效果。

Dec, 2023

压缩的成本：研究压缩对语言模型参数化知识的影响

压缩大型语言模型（LLM）包含数十亿参数，可以提供更快的推理速度，更小的内存占用，并支持本地部署。我们通过对多个模型系列（ENCODER、ENCODER-DECODER 和 DECODER）使用 LAMA 和 LM-HARNESS 基准进行全面分析，以系统量化常用压缩技术对模型性能的影响，特别关注涉及参数化知识的权衡，旨在为从业人员提供实用的见解，帮助他们在压缩决策时做出明智的选择。

Dec, 2023