基于矩阵熵的大型语言模型评估

Jan, 2024

Large Language Model Evaluation via Matrix Entropy

Lai Wei, Zhiquan Tan, Chenghai Li, Jindong Wang, Weiran Huang

TL;DR通过信息论和几何原理，我们引入了矩阵熵作为一种新的度量标准，以量化大型语言模型中的数据压缩能力，展示其在单模态和多模态设置中的适用性，并发现它可以作为传统损失缩放定律的补充。同时，我们基于矩阵熵提出了一种评估方法，用于评估对齐质量，并发现现代大型多模态模型表现出良好的对齐性能。

Abstract

large language models (LLMs) have revolutionized the field of natural language processing, extending their strong capabilities into multi-modal domains. Thus, it is vital to define proper and diversified metrics

large language models metrics matrix entropy information theory multi-modal models

发现论文，激发创造

大型语言模型几何信息

该研究探讨了大型语言模型（LLMs）中嵌入的信息编码，并发现与模型大小存在幂律关系的表示熵。基于此观察，提出了一个基于（条件）熵的理论以阐明该缩放定律现象。此外，通过使用信息论和回归技术，研究 LLMs 的自回归结构，并检查最后一个标记与前文标记之间的关系。具体地，我们建立了新标记的信息增益与岭回归之间的理论联系。此外，我们还探索了 Lasso 回归在选择有意义的标记方面的有效性，有时优于相关的注意力权重。最后，通过进行对比实验，发现信息分布在各个标记中，而不仅仅集中在特定的 “有意义” 标记中。

Feb, 2024

评估大型语言模型对代码可维护性的能力

通过控制代码的逻辑行数 (LLOC)，LLMs 计算出的交叉熵是一种可预测可维护性的指标，但是在类级别上，仅仅以此准则可能不足以预测维护性，需要进一步研究以充分利用此信息。

Jan, 2024

E-Sparse: 通过基于熵的 N:M 稀疏性提升大型语言模型推理

传统修剪方法在大型语言模型中的使用具有挑战性，因为训练过程代价高且计算需求大。我们首次引入隐藏状态特征的信息熵作为修剪度量设计，即 E-Sparse，以提高大型语言模型的 N:M 稀疏性准确性，并通过引入信息熵和几种创新技术来快速优化信息分布和应对 N:M 稀疏性对准确性的影响。E-Sparse 通过 FasterTransformer 实现为 Sparse-GEMM，并在 NVIDIA Ampere GPU 上运行。对 LLaMA 系列和 OPT 模型进行的广泛实验表明，E-Sparse 可以显著加速模型推理（高达 1.53 倍），并实现显著的内存节省（高达 43.52%），在可接受的准确性损失范围内。

Oct, 2023

基于压缩的 LLM 排名

我们将理解过程视为信息压缩，并提出了一种基于无损数据压缩的大型语言模型（LLMs）排序方法。我们使用五个大型语言模型作为压缩的先验，并比较它们在困难的自然语言处理任务中的性能，包括句子完成、问题回答和共指消解。实验结果表明，压缩比率和模型性能呈正相关，因此可以作为评估大型语言模型的通用指标。

Jun, 2024

基于熵的检索增强大语言模型的解码

通过熵考虑引导的新型训练免耦合解码方法，提高了检索辅助的大型语言模型在从上下文中提取相关信息时的可靠性，解决了噪音干扰问题。与模型内部知识的高熵分布相对比，对检索得到的低熵集成分布进行对比解码，确保更多重视可靠的外部信息，实验证明了该方法的卓越性能。

Jun, 2024

矩阵：一种用于 LLMs 的贝叶斯学习模型

我们介绍了一个贝叶斯学习模型来理解大型语言模型的行为。我们探讨了大语言模型的优化指标，基于对下一个标记的预测，并开发了一个基于此原则的新颖模型。我们构建了一个理想的生成文本模型，通过具有先验信息的多项式过渡概率矩阵表示，并研究了大语言模型如何逼近该矩阵。我们讨论了嵌入和多项式分布之间的映射的连续性，并提出了狄利克雷逼近定理来近似任何先验。此外，我们展示了大型语言模型的文本生成如何符合贝叶斯学习原理，并深入探讨了其在上下文学习中的影响，特别是解释了为什么在更大的模型中，提示被视为要更新的样本。我们的研究结果表明，大型语言模型的行为与贝叶斯学习一致，为它们的功能和潜在应用提供了新的见解。

Feb, 2024

信息熵损失对生成式语言模型学习困难的缓解

通过引入信息熵损失函数来解决文本语料中常见和难以学习的标记的不平衡性，改进了生成式语言模型在下游任务中的性能表现。

Oct, 2023

自回归语言模型用于估计史诗电子健康记录审计日志的熵

电子健康记录 (EHR) 的审计日志是一种高粒度的事件流，捕捉了临床医生的活动，对于研究临床医生工作流程的特征是一个重要的研究领域。现有的通过 EHR 审计日志衡量工作流程复杂性的技术，涉及到基于时间或频率的横断面聚合，无法捕捉完整的 EHR 会话复杂性。我们简要评估了基于变压器模型的表格语言模型（tabular LM）在度量工作流程内的动作序列的熵或无序度，并公开发布评估模型。

Nov, 2023

提升 LLMs 的信任度：比较和解释 LLMs 的算法

评估技术在提高大规模语言模型（LLM）的可信度和理解性方面起到了至关重要的作用，通过算法方法和评估指标来评估 LLM 的性能，发现其弱点，并引导其发展以实现更可信赖的应用。

Jun, 2024

揭示以度量为重点的 LLM 评估：挑战与解决方案

NLP 中，大型语言模型（LLMs）的成功推动了其显著突破，本文对 LLM 的评估方法进行了全面探索，提供了选择和解读已使用度量标准的见解，并采用最新的生物医学 LLM 进行了这些度量标准的应用比较，旨在为研究人员提供一个实用的指南，推进对这些大型语言模型的理解和应用。

Apr, 2024