基于信息论的模型压缩对群体风险改进的理解
本文提出了一种新的理论,可以控制压缩函数(称为 “风险” 的压缩函数的改变概率),并证明了压缩集合的基数是风险的一致估计量的条件。结果可用于不需要先验知识的全面无偏配置中。这些结果不仅可用于完全了解驱动方法的信任,而且在学习技术中,还可以作为超参数调整的工具。
Jan, 2023
本文探讨了神经网络压缩问题,利用率失真理论解释了压缩比和神经网络性能之间的张力,提出了一种压缩和失真之间的折衷方法,并通过该理论分析表明模型剪枝是好的压缩算法的一部分,最后,提出了一种基于信息理论的剪枝策略并在 CIFAR-10 和 ImageNet 数据集上显示出其优越性。
Feb, 2021
本文研究深度神经网络模型压缩技术,提出了基于速率失真理论的压缩架构以及优化剪枝和量化技术,理论上证明了该架构对于一层 ReLU 神经网络最优,实验证明该方法在压缩 - 精度平衡上显著优于基线方法。
Oct, 2018
通过分析语言模型(LM)中的压缩方法,从几何和信息论的角度,我们证明这两种视角高度相关,表明语言数据的内在几何维度可以预测其在 LM 下的编码长度,进而表明语言信息压缩能力是成功 LM 性能的重要组成部分。同时,我们还评估了一系列首次应用于语言数据的特征维度估计器,表明只有其中的一部分能够概括信息论压缩、几何压缩和适应性关系。
Oct, 2023
增加模型容量是增强深度学习网络对抗性鲁棒性的已知方法之一,而剪枝和量化等压缩技术则可以减小网络的大小同时保持准确性。本研究总结了现有证据并讨论了观察到的效果可能的解释。
Nov, 2023
本文首次研究了模型压缩技术对生成性语言模型的毒性和偏见的影响,我们在 GPT2 模型上测试了知识蒸馏和剪枝方法,发现模型蒸馏后有毒性和偏见的减少,这个结果可以被解释为模型压缩的正则化技术,我们的工作不仅可以作为压缩模型安全部署的参考,而且将 “压缩作为正则化” 的讨论扩展到了神经语言模型领域,并暗示了使用压缩来开发更加公平的模型的可能性。
Jan, 2022
本文提出了一种联合训练和源编码方案,具有可验证的期望保证,通过在条件分布和先验之间施加适当的 Kullback-Leibler 散度约束,同时保证了小的平均经验风险(即训练损失),小的平均泛化误差和小的平均通信成本。
Jun, 2024
大型语言模型通过自我监督在大规模网络文本上进行训练,模型对文本的社会偏见进行了合适的拟合。尽管需要介入以减轻预训练过程中学到的不适当的社会偏见对模型预测结果的影响,但在这两个方法之间的相互作用方面,目前的研究工作还不充分。本研究对量化和知识蒸馏的模型压缩方法在语言模型的社会偏见衡量方面进行了仔细的对比研究,结果表明,较长的预训练时间和较大的模型会导致更高的社会偏见,而量化方法在约为原始预训练时间的 20% 处展现了最佳的折衷效果。
Dec, 2023
压缩大型语言模型(LLM)包含数十亿参数,可以提供更快的推理速度,更小的内存占用,并支持本地部署。我们通过对多个模型系列(ENCODER、ENCODER-DECODER 和 DECODER)使用 LAMA 和 LM-HARNESS 基准进行全面分析,以系统量化常用压缩技术对模型性能的影响,特别关注涉及参数化知识的权衡,旨在为从业人员提供实用的见解,帮助他们在压缩决策时做出明智的选择。
Dec, 2023