解码压缩的信任：压缩下高效 LLM 的可信度审查

Mar, 2024

解码压缩的信任：压缩下高效 LLM 的可信度审查

Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression

Junyuan Hong, Jinhao Duan, Chenhui Zhang, Zhangheng Li, Chulin Xie...

TL;DR通过评估三个领先的大型语言模型在八个可信度维度上使用五种最先进的压缩技术的结果，本研究发现，与剪枝相比，量化在同时实现高效和可信性方面更具有效性。此外，适度位数范围内的量化可以意外地提高某些可信度维度，例如道德和公平性。这些发现提供了在大型语言模型中同时实现高效、可用性和可信性的实用建议。

Abstract

compressing high-capability large language models (LLMs) has emerged as a favored strategy for resource-efficient inferences. While state-of-the-art (SoTA) compression methods boast impressive advancements in pre

compressing large language models compression techniques quantization trustworthiness evaluation

发现论文，激发创造

压缩 LLMs：真实很少纯粹而简单

尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题，但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为 LLM-KICK 的压缩语言模型评估协议，通过其揭示了当前最先进的压缩方法的优点和缺点，并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。

Oct, 2023

压缩的成本：研究压缩对语言模型参数化知识的影响

压缩大型语言模型（LLM）包含数十亿参数，可以提供更快的推理速度，更小的内存占用，并支持本地部署。我们通过对多个模型系列（ENCODER、ENCODER-DECODER 和 DECODER）使用 LAMA 和 LM-HARNESS 基准进行全面分析，以系统量化常用压缩技术对模型性能的影响，特别关注涉及参数化知识的权衡，旨在为从业人员提供实用的见解，帮助他们在压缩决策时做出明智的选择。

Dec, 2023

大型语言模型的量化对置信度的影响

近期的研究引入了通过事后训练量化或低位权重表示来进行大语言模型（LLMs）有效压缩的技术。尽管量化权重提供了存储效率和更快推理的优势，但现有研究指出，量化可能损害性能并加剧 LLMs 中的偏见。本研究通过考虑语言模型类型和规模等因素，调查了量化模型的置信度和校准情况，揭示了通过 GPTQ 进行 4 位量化会导致对真实标签置信度的降低，同时不同语言模型之间观察到的影响差异。另外，本研究观察到在不同规模下对置信度影响的波动。最后，我们提出了一种基于置信度水平的量化损失解释，表明量化不成比例地影响了一开始完整模型置信度较低的样本。

May, 2024

LLM-QBench: 大型语言模型后训练量化最佳实践基准测试

探索量化大型语言模型的最佳实践，平衡性能与计算效率。通过基准测试和实验，提出了与标定数据、量化算法和量化方案相对应的三个关键点，并构建了最佳的 LLM PTQ 流水线。

May, 2024

TrustLLM：大型语言模型的可信性

介绍了 TrustLLM，这是一个关于 LLM（大型语言模型）信任度的综合研究，包括不同维度的信任度原则、建立的基准、评估和分析主流 LLM 的信任度，以及对开放挑战和未来方向的讨论。

Jan, 2024

关于量化大型语言模型的可压缩性

通过应用数据压缩技术来减少数据传输，从而提高在内存受限设备上量化化的大型语言模型推理的速度。

Mar, 2024

大型语言模型的模型压缩综述

该论文提供了针对大型语言模型的模型压缩技术的综述调查，涵盖量化、修剪、知识蒸馏等各种方法，并探讨了压缩后的大型语言模型的基准策略和评估指标，旨在促进效率和实际应用的提升，为领域的未来发展奠定了基础。

Aug, 2023

大型语言模型的量化策略的全面评估

对大型语言模型的量化技术进行研究，发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能，并且困惑度可以作为量化语言模型的代理度量。然而，量化也会影响推断速度，因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。

Feb, 2024

大型语言模型的极端压缩：基于加性量化

该研究中，我们将经典的多码本量化方法应用于语言模型的压缩，实现了对开放式大规模语言模型的极端压缩，提高了在给定压缩预算下的准确性。

Jan, 2024

多模态大型语言模型可信度评估：一项全面研究

通过建立 MultiTrust 综合基准，本研究通过对 21 种现代多模态大型语言模型的广泛实验，揭示了一些之前未开发的可信度问题与风险，强调了多模态性引入的复杂性，并强调提升其可靠性的先进方法的必要性。

Jun, 2024