语言建模即压缩

Sep, 2023

Language Modeling Is Compression

Grégoire Delétang, Anian Ruoss, Paul-Ambroise Duquenne, Elliot Catt, Tim Genewein...

TL;DR通过压缩模型来解决预测问题和训练大型语言模型的相关研究，大型语言模型展现出强大的预测和压缩能力，此视角为规模定律、分词和上下文学习提供了新的观点，并且可以使用任何压缩器构建条件生成模型。

Abstract

It has long been established that predictive models can be transformed into lossless compressors and vice versa. Incidentally, in recent years, the machine learning community has focused on training increasingly

predictive models lossless compressors large language models compression capabilities conditional generative model

发现论文，激发创造

通过数据压缩评估大型语言模型的泛化能力和鲁棒性

我们提出了一种基于无损数据压缩的评估方法，用于测试模型训练截断后的预测能力广义化情况。我们收集了从 2017 年到 2023 年的 83 个月的全面测试数据，并根据模型的训练数据截断将数据分为训练和测试期。我们通过测试期的压缩性能作为对未见数据广义化的度量，以及训练期和测试期之间的性能差距作为鲁棒性的度量来进行测量。实验测试了 14 种具有各种规模的代表性大型语言模型，包括维基百科、新闻文章、代码、arXiv 论文和多模态数据。我们发现许多模型的压缩率在其截断日期后显著降低，但 Mistral 和 Llama-2 等模型在性能和鲁棒性之间取得了良好的平衡。结果还表明，模型在新闻和代码数据上很难广义化，但在 arXiv 论文上表现特别好。我们还发现上下文大小和标记化实现对整体压缩性能有很大影响。

Feb, 2024

大型语言模型的模型压缩与高效推理：调研

这篇论文研究了大型语言模型的压缩和高效推理方法，介绍了分类为量化、修剪、蒸馏、紧凑架构设计和动态网络的压缩和加速算法，并提出了中型模型和真正大型模型的区分。此外，还介绍了一些用于大型模型高效推理的成熟框架，可以支持基本的压缩或加速算法，极大地方便了用户的模型部署。

Feb, 2024

基于压缩的 LLM 排名

我们将理解过程视为信息压缩，并提出了一种基于无损数据压缩的大型语言模型（LLMs）排序方法。我们使用五个大型语言模型作为压缩的先验，并比较它们在困难的自然语言处理任务中的性能，包括句子完成、问题回答和共指消解。实验结果表明，压缩比率和模型性能呈正相关，因此可以作为评估大型语言模型的通用指标。

Jun, 2024

压缩多语言机器翻译模型遗漏了什么？

本研究分析了压缩技术对多语言神经机器翻译模型性能的影响，发现压缩方法会导致低资源语言的性能显著下降，甚至会放大内在的性别和语义偏差。

May, 2022

压缩线性地表现智能

通过研究语言模型作为数据压缩器，我们发现大型语言模型的智能，通过平均基准分数与其压缩外部文本语料库的能力几乎呈线性相关，并且压缩效率作为从原始文本语料库中派生的无监督度量，可作为与模型能力相关的可靠评估措施。

Apr, 2024

压缩多语言模型的有趣属性

本文研究了在多语种预训练语言模型中采用压缩技术的影响，在 40 种语言的 mBERT 命名实体识别模型上，发现压缩技术会提高模型的鲁棒性和低资源语言的性能。

Nov, 2022

大型语言模型的模型压缩综述

该论文提供了针对大型语言模型的模型压缩技术的综述调查，涵盖量化、修剪、知识蒸馏等各种方法，并探讨了压缩后的大型语言模型的基准策略和评估指标，旨在促进效率和实际应用的提升，为领域的未来发展奠定了基础。

Aug, 2023

当小的更小时会发生什么？探究对小数据预训练语言模型进行压缩的影响

压缩技术对小规模数据语言模型的效率和效果具有显著改善作用，证实了对大规模参数化模型的压缩效果的普遍观点同样适用于小规模数据模型。

Apr, 2024

大型语言模型中模型压缩对社会偏见的影响理解

大型语言模型通过自我监督在大规模网络文本上进行训练，模型对文本的社会偏见进行了合适的拟合。尽管需要介入以减轻预训练过程中学到的不适当的社会偏见对模型预测结果的影响，但在这两个方法之间的相互作用方面，目前的研究工作还不充分。本研究对量化和知识蒸馏的模型压缩方法在语言模型的社会偏见衡量方面进行了仔细的对比研究，结果表明，较长的预训练时间和较大的模型会导致更高的社会偏见，而量化方法在约为原始预训练时间的 20% 处展现了最佳的折衷效果。

Dec, 2023

语言作为潜变量：离散生成模型用于句子压缩

通过深度生成模型进行文本压缩，利用离散语言模型分布作为文档的潜在表示，生成模型引入离散语言模型的概念，通过变分自编码器进行推断，本研究在大量监督数据训练的情况下，得出抽象和提取式压缩的最新成果，并探索半监督压缩场景。

Sep, 2016