压缩线性地表现智能
我们将理解过程视为信息压缩,并提出了一种基于无损数据压缩的大型语言模型(LLMs)排序方法。我们使用五个大型语言模型作为压缩的先验,并比较它们在困难的自然语言处理任务中的性能,包括句子完成、问题回答和共指消解。实验结果表明,压缩比率和模型性能呈正相关,因此可以作为评估大型语言模型的通用指标。
Jun, 2024
通过压缩模型来解决预测问题和训练大型语言模型的相关研究,大型语言模型展现出强大的预测和压缩能力,此视角为规模定律、分词和上下文学习提供了新的观点,并且可以使用任何压缩器构建条件生成模型。
Sep, 2023
压缩大型语言模型(LLM)包含数十亿参数,可以提供更快的推理速度,更小的内存占用,并支持本地部署。我们通过对多个模型系列(ENCODER、ENCODER-DECODER 和 DECODER)使用 LAMA 和 LM-HARNESS 基准进行全面分析,以系统量化常用压缩技术对模型性能的影响,特别关注涉及参数化知识的权衡,旨在为从业人员提供实用的见解,帮助他们在压缩决策时做出明智的选择。
Dec, 2023
本研究探讨了大型语言模型在近似压缩和语义压缩方面的应用及其效果评价,并提出了二元评价指标:是否精确重构 (ERE) 和语义重构有效性 (SRE),结果表明 GPT-4 可能有效地压缩和重构文本,并保留原始文本的语义要素。
Apr, 2023
通过分析语言模型(LM)中的压缩方法,从几何和信息论的角度,我们证明这两种视角高度相关,表明语言数据的内在几何维度可以预测其在 LM 下的编码长度,进而表明语言信息压缩能力是成功 LM 性能的重要组成部分。同时,我们还评估了一系列首次应用于语言数据的特征维度估计器,表明只有其中的一部分能够概括信息论压缩、几何压缩和适应性关系。
Oct, 2023
该论文提供了针对大型语言模型的模型压缩技术的综述调查,涵盖量化、修剪、知识蒸馏等各种方法,并探讨了压缩后的大型语言模型的基准策略和评估指标,旨在促进效率和实际应用的提升,为领域的未来发展奠定了基础。
Aug, 2023
尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题,但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为 LLM-KICK 的压缩语言模型评估协议,通过其揭示了当前最先进的压缩方法的优点和缺点,并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。
Oct, 2023
大型语言模型通过自我监督在大规模网络文本上进行训练,模型对文本的社会偏见进行了合适的拟合。尽管需要介入以减轻预训练过程中学到的不适当的社会偏见对模型预测结果的影响,但在这两个方法之间的相互作用方面,目前的研究工作还不充分。本研究对量化和知识蒸馏的模型压缩方法在语言模型的社会偏见衡量方面进行了仔细的对比研究,结果表明,较长的预训练时间和较大的模型会导致更高的社会偏见,而量化方法在约为原始预训练时间的 20% 处展现了最佳的折衷效果。
Dec, 2023
本文探讨了在高度压缩的文本上训练大型语言模型(LLMs)的想法。通过提出等信息窗口这一新的压缩技术,我们展示了在神经压缩文本上有效学习的方法,该方法在规模上得到了改进,并在复杂度和推理速度基准测试中大大优于字节级基准。
Apr, 2024