弹性语言模型

Nov, 2023

On Elastic Language Models

Chen Zhang, Benyou Wang, Dawei Song

TL;DR弹性语言模型（ElasticLM）根据请求流动弹性地调整权衡，并设计弹性优化来学习，以实现在线搜索和信息检索任务。

Abstract

large-scale pretrained language models have achieved compelling performance in a wide range of language understanding and information retrieval tasks. knowledge distillation offers an opportunity to compress a la

large-scale pretrained language models knowledge distillation compressed language model elastic language model compute elasticity

发现论文，激发创造

弹性异构计算资源下的大规模知识蒸馏

本文提出了一种基于弹性计算资源的深度学习压缩方法，即 EDL-Dist，可用于从大型深度模型创建紧凑的学生模型，支持训练和推理过程的容错性，并且其吞吐量比在线知识蒸馏基准方法提高了 3.125 倍，而精度相当或更高。

Jul, 2022

大型语言模型的模型压缩与高效推理：调研

这篇论文研究了大型语言模型的压缩和高效推理方法，介绍了分类为量化、修剪、蒸馏、紧凑架构设计和动态网络的压缩和加速算法，并提出了中型模型和真正大型模型的区分。此外，还介绍了一些用于大型模型高效推理的成熟框架，可以支持基本的压缩或加速算法，极大地方便了用户的模型部署。

Feb, 2024

借助 Elasticsearch 和 Transformer 模型增强基于云的大型语言模型处理

使用大语言模型（LLMs）和 Transformer 模型来增强大规模语言模型处理方法，主要通过实现语义搜索来提高搜索结果的准确性和相关性。

Feb, 2024

预训练语言模型压缩和加速综述

该文章调查了预训练语言模型的压缩和加速方法，重点关注了模型在 NLP 领域推理阶段的表现，并提出为 NLP 的整个生命周期（包括数据准备、模型训练和推理）综合考虑计算、时间和碳排放的高效 NLP 研究。

Feb, 2022

模态即插即用：多模态低水平语言模型中的弹性模态适应

通过将单模编码器与一组灵活的最后 LLM 块连接并使这些潜在连接在运行时完全可训练，mPnP-LLM 能够实现完全弹性、自动化和及时的运行时模态适应，同时在存在方案的情况下保持相当的准确性。

Dec, 2023

基于检索的知识迁移：一种有效的极端大型语言模型压缩方法

我们介绍了一种称为 Retrieval-based Knowledge Transfer (RetriKT) 的新型压缩模型的方法，通过从大规模预训练语言模型中提取知识，构建一个知识存储库，小规模模型可以从中检索相关信息并利用它进行有效推理，实验证明该方法显著提升了小规模模型的性能。

Oct, 2023

动态内存压缩：为加速推断而改进语言模型

通过动态内存压缩 (DMC) 方法，我们可以提高基于 Transformers 的大型语言模型 (LLMs) 在自回归推理中的吞吐量，在保持原有性能的同时，使用不同的压缩率来适应不同的注意头和层级，并可以与其他技术相结合以提供更好的结果。

Mar, 2024

适应文本分类任务中性能与效率的权衡

本文研究了不同的训练方法，使用预训练语言模型来进行文本分类。研究发现，在训练大型语言模型时，虽然标准微调和提示可以很好地运作，但是还有更有效的替代方法可以降低计算或数据成本。有趣的是，发现提示结合知识蒸馏可以同时降低计算和数据成本。

Oct, 2022

COST-EFF：细化多出口语言模型在空间和时间效率上的协同优化

提出了一种用于 PLM 的协作优化算法，该算法集成了静态模型压缩和动态推理加速，通过在宽度上将 PLM 变得苗条同时保持深度，同时补充逐层早期退出以动态加速推理。

Oct, 2022

大型语言模型的语义压缩

本研究探讨了大型语言模型在近似压缩和语义压缩方面的应用及其效果评价，并提出了二元评价指标：是否精确重构 (ERE) 和语义重构有效性 (SRE)，结果表明 GPT-4 可能有效地压缩和重构文本，并保留原始文本的语义要素。

Apr, 2023