大型语言模型几何信息

Feb, 2024

The Information of Large Language Model Geometry

Zhiquan Tan, Chenghai Li, Weiran Huang

TL;DR该研究探讨了大型语言模型（LLMs）中嵌入的信息编码，并发现与模型大小存在幂律关系的表示熵。基于此观察，提出了一个基于（条件）熵的理论以阐明该缩放定律现象。此外，通过使用信息论和回归技术，研究 LLMs 的自回归结构，并检查最后一个标记与前文标记之间的关系。具体地，我们建立了新标记的信息增益与岭回归之间的理论联系。此外，我们还探索了 Lasso 回归在选择有意义的标记方面的有效性，有时优于相关的注意力权重。最后，通过进行对比实验，发现信息分布在各个标记中，而不仅仅集中在特定的 “有意义” 标记中。

Abstract

This paper investigates the information encoded in the embeddings of large language models (LLMs). We conduct simulations to analyze the representation entropy and discover a power law relationship with model sizes. Building upon this observation, we propose a theory based on (conditio

language models representation entropy scaling law auto-regressive structure ridge regression

发现论文，激发创造

基于矩阵熵的大型语言模型评估

通过信息论和几何原理，我们引入了矩阵熵作为一种新的度量标准，以量化大型语言模型中的数据压缩能力，展示其在单模态和多模态设置中的适用性，并发现它可以作为传统损失缩放定律的补充。同时，我们基于矩阵熵提出了一种评估方法，用于评估对齐质量，并发现现代大型多模态模型表现出良好的对齐性能。

Jan, 2024

自然语言模型中地理表现的缩放规律

扩展大型语言模型 (LLM) 到研究结果，观察语言模型在扩展时地理知识是如何演变的，并显示较大的语言模型不能消除训练数据中固有的地理偏见。

Feb, 2024

大型語言模型中線性表示的起源

高层语义概念在大型语言模型的表示空间中按线性方式编码；本研究通过引入简单的潜在变量模型来研究这种线性表示的起源，并证明了下一个标记预测目标和梯度下降的隐式偏差共同促进了概念的线性表示。

Mar, 2024

自回归之火：通过它们所训练解决的问题来理解大型语言模型

大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张，为了全面理解这些系统，我们需要考虑它们在训练中解决的问题：互联网文本的下一个词预测。通过认识到这个任务所带来的压力，我们可以对大语言模型采用的策略进行预测，从而推断它们的成功或失败。这种方法，我们称之为目的论方法，使我们能够确定三个因素，我们假设这些因素会影响大语言模型的准确性：执行任务的概率、目标输出的概率和提供的输入的概率。我们预测，当这些概率较高时，大语言模型的准确性会更高，而当概率较低时，即使在确定性环境下，概率也不应该起作用。为了验证我们的预测，我们对两个大语言模型（GPT-3.5 和 GPT-4）进行了十一项任务的评估，我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下，实验揭示了令人惊讶的失效模式。例如，当输出是高概率单词序列时，GPT-4 解码简单密码的准确率为 51%，但当输出是低概率时，准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说，我们得出结论，我们不应该把大语言模型评估为人类，而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。

Sep, 2023

嵌入中藏着什么？无论是什么嵌入，玫瑰都会闻起来一样香吗？

大型语言模型 (LLMs) 通常被批评缺乏真正的 “理解” 和 “推理” 能力，被视为高级自动填充系统。本研究认为这种观点可能忽视了一个重要的见解，即 LLMs 确实发展出一种类似于 “几何” 的经验性 “理解”，这对自然语言处理、计算机视觉、代码辅助等领域的应用似乎足够了。然而，这种基于不完全和嘈杂数据构建的 “几何” 理解使得 LLMs 不可靠、难以推广，并且缺乏推理能力和解释能力，类似于几十年前启发式专家系统面临的挑战。为了克服这些局限性，本研究建议将 LLMs 与包括专家系统中使用的符号 AI 元素在内的 “代数” 知识表示集成起来。这种集成旨在创建大型知识模型 (LKMs)，它们不仅具备以第一原理为基础的 “深度” 知识，而且具备推理和解释的能力，模仿人类专家的能力。为了安全有效地利用生成式 AI 的全部潜力，需要从 LLMs 转向更全面的 LKMs，这是一种新的范式转变。

Jun, 2024

大型语言模型几何特征解决有害内容检测与生成

大型语言模型的几何视角下，从内在维度和可解释的样条特征的角度探索其内部表示，并证明这些理论结果可以回答实际问题，如毒性检测。

Dec, 2023

在语言模型中桥接信息论压缩与几何压缩

通过分析语言模型（LM）中的压缩方法，从几何和信息论的角度，我们证明这两种视角高度相关，表明语言数据的内在几何维度可以预测其在 LM 下的编码长度，进而表明语言信息压缩能力是成功 LM 性能的重要组成部分。同时，我们还评估了一系列首次应用于语言数据的特征维度估计器，表明只有其中的一部分能够概括信息论压缩、几何压缩和适应性关系。

Oct, 2023

评估大型语言模型在几何和空间关系的文本描述中的有效性

研究使用大型语言模型（LLMs）对几何形状及其空间关系进行表示的能力，并使用 GPT-2 和 BERT 等 LLMs 对几何形状的文本（WKT）格式进行编码，然后将其嵌入分类器和回归器中评估 LLMs 生成的嵌入表示对几何属性的效果。实验证明，尽管 LLMs 生成的嵌入可以保留几何类型并捕捉一些空间关系（准确率高达 73%），但在估计数值和检索空间相关对象方面仍存在挑战。此研究强调了在捕捉底层地理空间数据的细微差别和复杂性以及整合领域知识以支持各种基于 GeoAI 应用的需要改进的重要性。

Jul, 2023

大型语言模型的时间尺度定律

最近，大型语言模型广泛应用于各种任务，对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律，并研究了语言模型在时间维度上的损失。研究发现，尽管存在损失不平衡，语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象，并提供了对预训练语言模型更深入的理解。

Apr, 2024

矩阵：一种用于 LLMs 的贝叶斯学习模型

我们介绍了一个贝叶斯学习模型来理解大型语言模型的行为。我们探讨了大语言模型的优化指标，基于对下一个标记的预测，并开发了一个基于此原则的新颖模型。我们构建了一个理想的生成文本模型，通过具有先验信息的多项式过渡概率矩阵表示，并研究了大语言模型如何逼近该矩阵。我们讨论了嵌入和多项式分布之间的映射的连续性，并提出了狄利克雷逼近定理来近似任何先验。此外，我们展示了大型语言模型的文本生成如何符合贝叶斯学习原理，并深入探讨了其在上下文学习中的影响，特别是解释了为什么在更大的模型中，提示被视为要更新的样本。我们的研究结果表明，大型语言模型的行为与贝叶斯学习一致，为它们的功能和潜在应用提供了新的见解。

Feb, 2024