弹性语言模型
本文提出了一种基于弹性计算资源的深度学习压缩方法,即 EDL-Dist,可用于从大型深度模型创建紧凑的学生模型,支持训练和推理过程的容错性,并且其吞吐量比在线知识蒸馏基准方法提高了 3.125 倍,而精度相当或更高。
Jul, 2022
这篇论文研究了大型语言模型的压缩和高效推理方法,介绍了分类为量化、修剪、蒸馏、紧凑架构设计和动态网络的压缩和加速算法,并提出了中型模型和真正大型模型的区分。此外,还介绍了一些用于大型模型高效推理的成熟框架,可以支持基本的压缩或加速算法,极大地方便了用户的模型部署。
Feb, 2024
使用大语言模型(LLMs)和 Transformer 模型来增强大规模语言模型处理方法,主要通过实现语义搜索来提高搜索结果的准确性和相关性。
Feb, 2024
该文章调查了预训练语言模型的压缩和加速方法,重点关注了模型在 NLP 领域推理阶段的表现,并提出为 NLP 的整个生命周期(包括数据准备、模型训练和推理)综合考虑计算、时间和碳排放的高效 NLP 研究。
Feb, 2022
通过将单模编码器与一组灵活的最后 LLM 块连接并使这些潜在连接在运行时完全可训练,mPnP-LLM 能够实现完全弹性、自动化和及时的运行时模态适应,同时在存在方案的情况下保持相当的准确性。
Dec, 2023
我们介绍了一种称为 Retrieval-based Knowledge Transfer (RetriKT) 的新型压缩模型的方法,通过从大规模预训练语言模型中提取知识,构建一个知识存储库,小规模模型可以从中检索相关信息并利用它进行有效推理,实验证明该方法显著提升了小规模模型的性能。
Oct, 2023
通过动态内存压缩 (DMC) 方法,我们可以提高基于 Transformers 的大型语言模型 (LLMs) 在自回归推理中的吞吐量,在保持原有性能的同时,使用不同的压缩率来适应不同的注意头和层级,并可以与其他技术相结合以提供更好的结果。
Mar, 2024
本文研究了不同的训练方法,使用预训练语言模型来进行文本分类。研究发现,在训练大型语言模型时,虽然标准微调和提示可以很好地运作,但是还有更有效的替代方法可以降低计算或数据成本。有趣的是,发现提示结合知识蒸馏可以同时降低计算和数据成本。
Oct, 2022
提出了一种用于 PLM 的协作优化算法,该算法集成了静态模型压缩和动态推理加速,通过在宽度上将 PLM 变得苗条同时保持深度,同时补充逐层早期退出以动态加速推理。
Oct, 2022
本研究探讨了大型语言模型在近似压缩和语义压缩方面的应用及其效果评价,并提出了二元评价指标:是否精确重构 (ERE) 和语义重构有效性 (SRE),结果表明 GPT-4 可能有效地压缩和重构文本,并保留原始文本的语义要素。
Apr, 2023