SUBLLM:LLM 的一种新型高效架构及令牌序列子采样
通过设计深而瘦的体系结构以及嵌入共享和分组查询注意机制,我们提出了一种名为 MobileLLM 的强基线网络,它在先前的 125M/350M 最先进模型上分别获得 2.7%/4.3% 的准确度提升。此外,我们还提出了一种即时的分块权重共享方法,不增加模型大小且仅有微小的延迟开销。MobileLLM-LS 模型进一步提升了 0.7%/0.8% 的准确度,相较于 MobileLLM 125M/350M。此外,MobileLLM 模型系列在聊天基准测试中相较于之前的次十亿模型有显著提升,并在 API 调用任务中表现出接近 LLaMA-v2 7B 的正确性,突显了小型模型在常见设备使用情景中的能力。
Feb, 2024
我们提出了一种混合方法,结合不同规模的语言模型以提高自回归解码的效率,同时保持高性能。该方法利用一个预先训练的冻结语言模型来编码所有提示标记,然后使用生成的表示来引导一个较小的语言模型来更高效地生成响应。与 LLM 相比,我们的方法在翻译和摘要任务中实现了高达 4 倍的速度提升,但只有 1-2% 的性能损失。
Feb, 2024
通过引入一种无需训练的基于内存的方法 InfLLM,使得大型语言模型 (LLM) 能够高效处理长序列并捕获远距离依赖关系。
Feb, 2024
我们提出了一种新颖的推理方案,自我推测解码,用于加速大型语言模型(LLMs),无需辅助模型。该方法通过两个阶段的过程来实现:草稿和验证。草稿阶段以稍低质量但更快的速度生成草稿标记,通过在草稿期间选择性跳过某些中间层来实现。然后,验证阶段使用原始 LLM 在一次前向传递中验证那些草稿输出标记。该过程确保最终输出与未经修改的 LLM 产生的输出完全相同,从而保持输出质量。所提出的方法不需要额外的神经网络训练和额外的内存占用,是一种即插即用和经济高效的推理加速解决方案。与 LLaMA-2 及其微调模型的基准测试表明,加速比最高可达 1.73 倍。
Sep, 2023
通过在 MLLMs 中应用推测解码,特别是 LLaVA 7B,我们展示了一个仅语言模型可以作为推测解码的优秀起草模型,绕过了起草模型中图像令牌和其相关处理组件的需求。我们的实验证明,推测解码可以在三个不同任务中实现高达 2.37 倍的内存速度提升,使用的是我们从头开始训练的 115M 参数语言模型。此外,我们还引入了一个紧凑的 LLaVA 起草模型,其中包含图像适配器,在图像字幕生成方面表现出边际性能增益,并在其他任务中保持可比较的结果。
Apr, 2024
大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题,本文对提高大规模语言模型推理效率的现有技术文献进行了综述,介绍了数据层、模型层和系统层优化的方法,并通过实验进行了定量分析,最后总结了相关知识,并探讨了未来研究方向。
Apr, 2024
大型语言模型的推理对计算和内存要求较高,因此我们通过词汇筛选改进了其性能,可以显著减少内存使用并提高生成速度。然而,我们也发现了此类词汇选择方法的局限性,并提出了未来研究的方向。
Nov, 2023
大型语言模型 (LLM) 推理的高效领域正迅速发展,我们的研究通过基于屋顶线模型的框架,系统分析 LLM 推理技术,鉴别 LLM 部署瓶颈,深入理解实际设备的实际方面,并综合整理权重优化、解码算法改进和硬件系统增强等关键领域的最新进展,提供了全面而细致的高效 LLM 推理挑战和解决方案探索。
Feb, 2024
SubLIME 是一个数据高效评估框架,利用自适应采样技术,如聚类和质量导向方法,创建代表性的基准子集,以确保与完整数据集在模型排名方面具有高皮尔逊相关系数。该框架在评估低资源语言模型和文本到图像模型方面提供了一种灵活且经济高效的解决方案。
Jun, 2024