在语言模型中桥接信息论压缩与几何压缩

EMNLPOct, 2023

在语言模型中桥接信息论压缩与几何压缩

Bridging Information-Theoretic and Geometric Compression in Language Models

Emily Cheng, Corentin Kervadec, Marco Baroni

TL;DR通过分析语言模型（LM）中的压缩方法，从几何和信息论的角度，我们证明这两种视角高度相关，表明语言数据的内在几何维度可以预测其在 LM 下的编码长度，进而表明语言信息压缩能力是成功 LM 性能的重要组成部分。同时，我们还评估了一系列首次应用于语言数据的特征维度估计器，表明只有其中的一部分能够概括信息论压缩、几何压缩和适应性关系。

Abstract

For a language model (LM) to faithfully model human language, it must compress vast, potentially infinite information into relatively few dimensions. We propose analyzing compression in (pre-trained) LMs from two

language model compression geometric dimension information-theoretic linguistic dataset

发现论文，激发创造

基于压缩的 LLM 排名

我们将理解过程视为信息压缩，并提出了一种基于无损数据压缩的大型语言模型（LLMs）排序方法。我们使用五个大型语言模型作为压缩的先验，并比较它们在困难的自然语言处理任务中的性能，包括句子完成、问题回答和共指消解。实验结果表明，压缩比率和模型性能呈正相关，因此可以作为评估大型语言模型的通用指标。

Jun, 2024

压缩的成本：研究压缩对语言模型参数化知识的影响

压缩大型语言模型（LLM）包含数十亿参数，可以提供更快的推理速度，更小的内存占用，并支持本地部署。我们通过对多个模型系列（ENCODER、ENCODER-DECODER 和 DECODER）使用 LAMA 和 LM-HARNESS 基准进行全面分析，以系统量化常用压缩技术对模型性能的影响，特别关注涉及参数化知识的权衡，旨在为从业人员提供实用的见解，帮助他们在压缩决策时做出明智的选择。

Dec, 2023

压缩线性地表现智能

通过研究语言模型作为数据压缩器，我们发现大型语言模型的智能，通过平均基准分数与其压缩外部文本语料库的能力几乎呈线性相关，并且压缩效率作为从原始文本语料库中派生的无监督度量，可作为与模型能力相关的可靠评估措施。

Apr, 2024

大型语言模型的语义压缩

本研究探讨了大型语言模型在近似压缩和语义压缩方面的应用及其效果评价，并提出了二元评价指标：是否精确重构 (ERE) 和语义重构有效性 (SRE)，结果表明 GPT-4 可能有效地压缩和重构文本，并保留原始文本的语义要素。

Apr, 2023

表示形式作为语言：一个信息论解释的框架

通过一种新颖的可解释性方法，该论文使用信息论度量量化了神经模型对输入的表示的结构化程度，从而预测模型的泛化能力，并发现模型的代表性和噪声强度有关。此外，研究还研究了模型大小对表示空间结构的影响。

Jun, 2024

TexShape: 语言模型的信息论句子嵌入

通过信息理论的角度，本文致力于解决与将句子编码为其优化表示相关的挑战，特别关注数据领域中的资源利用、隐私和公平问题，并使用经验估计的相互信息，在 (task-based) 数据压缩或过滤敏感信息的过程中，训练了一种信息理论的句子嵌入模型，称为 TexShape。我们的实验证明，通过在压缩的数据上训练下游模型的预测准确性来保留最大化的目标信息和最小化的敏感信息，可以在不良的压缩比例方面取得显著进展。

Feb, 2024

大型语言模型几何信息

该研究探讨了大型语言模型（LLMs）中嵌入的信息编码，并发现与模型大小存在幂律关系的表示熵。基于此观察，提出了一个基于（条件）熵的理论以阐明该缩放定律现象。此外，通过使用信息论和回归技术，研究 LLMs 的自回归结构，并检查最后一个标记与前文标记之间的关系。具体地，我们建立了新标记的信息增益与岭回归之间的理论联系。此外，我们还探索了 Lasso 回归在选择有意义的标记方面的有效性，有时优于相关的注意力权重。最后，通过进行对比实验，发现信息分布在各个标记中，而不仅仅集中在特定的 “有意义” 标记中。

Feb, 2024

语言建模即压缩

通过压缩模型来解决预测问题和训练大型语言模型的相关研究，大型语言模型展现出强大的预测和压缩能力，此视角为规模定律、分词和上下文学习提供了新的观点，并且可以使用任何压缩器构建条件生成模型。

Sep, 2023

构建最优的语言模型学习

通过最大化数据压缩比率，优化语言模型的学习，提出了一个理论来揭示在此目标下优化学习过程的动态特性，并通过实验验证了该理论的有效性，最终得出语言模型的最优学习实质上是通过改善语言模型的缩放定律系数来实现的，为设计实用的学习加速方法提供了巨大的潜力和重要性。

Feb, 2024

探究预训练语言模型中的语言信息以进行逻辑推理

本文提出了一种方法来探测在预训练语言模型中进行逻辑推理需要的语言现象，发现预训练语言模型对于一些推理所需要的语言信息进行了编码，同时也发现了有一些信息的编码比较弱，但是预训练语言模型通过微调能够有效地学习到缺失的语言信息。这些结果为语言模型作为支持符号推理方法的语义和背景知识库的潜力提供了有价值的见解。

Dec, 2021