超越困惑：LLM 压缩的多维安全评估

Jul, 2024

超越困惑：LLM 压缩的多维安全评估

Beyond Perplexity: Multi-dimensional Safety Evaluation of LLM Compression

Zhichao Xu, Ashim Gupta, Tao Li, Oliver Bentham, Vivek Srikumar

TL;DR本研究通过对大型语言模型进行压缩，并从四个方面考察了压缩对模型行为的影响，包括退化伤害、表征伤害、方言偏差和语言建模及下游任务性能。研究结果发现，压缩可能对模型的行为产生意想不到的后果，强调将安全评估纳入到压缩模型的开发中以确保其在现实应用中的可靠性。

Abstract

large language models (LLMs) are increasingly deployed in real-world scenarios with the help of recent model compression techniques. Such momentum towards local deployment means the use of compressed LLMs will wi

large language models model compression degeneration harm representational harm safety assessments

发现论文，激发创造

压缩的成本：研究压缩对语言模型参数化知识的影响

压缩大型语言模型（LLM）包含数十亿参数，可以提供更快的推理速度，更小的内存占用，并支持本地部署。我们通过对多个模型系列（ENCODER、ENCODER-DECODER 和 DECODER）使用 LAMA 和 LM-HARNESS 基准进行全面分析，以系统量化常用压缩技术对模型性能的影响，特别关注涉及参数化知识的权衡，旨在为从业人员提供实用的见解，帮助他们在压缩决策时做出明智的选择。

Dec, 2023

解码压缩的信任：压缩下高效 LLM 的可信度审查

通过评估三个领先的大型语言模型在八个可信度维度上使用五种最先进的压缩技术的结果，本研究发现，与剪枝相比，量化在同时实现高效和可信性方面更具有效性。此外，适度位数范围内的量化可以意外地提高某些可信度维度，例如道德和公平性。这些发现提供了在大型语言模型中同时实现高效、可用性和可信性的实用建议。

Mar, 2024

大型语言模型中模型压缩对社会偏见的影响理解

大型语言模型通过自我监督在大规模网络文本上进行训练，模型对文本的社会偏见进行了合适的拟合。尽管需要介入以减轻预训练过程中学到的不适当的社会偏见对模型预测结果的影响，但在这两个方法之间的相互作用方面，目前的研究工作还不充分。本研究对量化和知识蒸馏的模型压缩方法在语言模型的社会偏见衡量方面进行了仔细的对比研究，结果表明，较长的预训练时间和较大的模型会导致更高的社会偏见，而量化方法在约为原始预训练时间的 20% 处展现了最佳的折衷效果。

Dec, 2023

大型语言模型的模型压缩综述

该论文提供了针对大型语言模型的模型压缩技术的综述调查，涵盖量化、修剪、知识蒸馏等各种方法，并探讨了压缩后的大型语言模型的基准策略和评估指标，旨在促进效率和实际应用的提升，为领域的未来发展奠定了基础。

Aug, 2023

压缩 LLMs：真实很少纯粹而简单

尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题，但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为 LLM-KICK 的压缩语言模型评估协议，通过其揭示了当前最先进的压缩方法的优点和缺点，并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。

Oct, 2023

大型语言模型的量化策略的全面评估

对大型语言模型的量化技术进行研究，发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能，并且困惑度可以作为量化语言模型的代理度量。然而，量化也会影响推断速度，因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。

Feb, 2024

评估大型语言模型：综述

该研究综述了大型语言模型的评估方法，并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法，以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣，以促进负责任发展和最大化社会利益，同时最小化潜在风险。

Oct, 2023

基于压缩的 LLM 排名

我们将理解过程视为信息压缩，并提出了一种基于无损数据压缩的大型语言模型（LLMs）排序方法。我们使用五个大型语言模型作为压缩的先验，并比较它们在困难的自然语言处理任务中的性能，包括句子完成、问题回答和共指消解。实验结果表明，压缩比率和模型性能呈正相关，因此可以作为评估大型语言模型的通用指标。

Jun, 2024

从再现性伤害到服务质量伤害：一项关于 “羊驼 2” 安全保障的案例研究

通过对 Llama 2 的案例进行研究，评估了安全措施对已减轻的偏见的效果，并发现安全与有益性的权衡在某些人群中更加明显，可能对边缘化群体造成服务质量损害。

Mar, 2024

关于量化大型语言模型的可压缩性

通过应用数据压缩技术来减少数据传输，从而提高在内存受限设备上量化化的大型语言模型推理的速度。

Mar, 2024