LLMCad: 快速可扩展的设备端大型语言模型推理

Sep, 2023

LLMCad: 快速可扩展的设备端大型语言模型推理

LLMCad: Fast and Scalable On-device Large Language Model Inference

Daliang Xu, Wangsong Yin, Xin Jin, Ying Zhang, Shiyun Wei...

TL;DRLLMCad 是一个创新的本地推理引擎，专为高效的自然语言处理任务而设计，通过模型协作实现高速的令牌生成。

Abstract

generative tasks, such as text generation and question answering, hold a crucial position in the realm of mobile applications. Due to their sensitivity to privacy concerns, there is a growing demand for their exe

generative tasks mobile applications llmcad on-device inference engine token generation speed

发现论文，激发创造

Transformer-Lite: 在手机 GPU 上高效部署大型语言模型

为了在移动设备上高效部署大型语言模型，我们提出了四种优化技术：基于符号表达式的动态模型推断，操作符优化和执行优先级设置，FP4 量化方法以减少反量化开销，以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求，并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比，我们的引擎在填充速度上实现了超过 10 倍的加速，并在解码速度上实现了 2~3 倍的加速。

Mar, 2024

一个量化的大型语言模型在各种智能手机上的性能评估

本研究探讨在各种苹果 iPhone 型号上进行设备内大型语言模型 (LLM) 推理的可行性和性能。通过对运行在有限资源设备上的数十亿参数的 LLM 的现有文献进行利用，我们的研究考察了高性能 LLM 在不同智能手机世代上的热效应和交互速度。通过提供实际性能结果，我们提供了关于设备内推理能力的见解。

Dec, 2023

基于需求定制的 LMLs 服务

通过引入层级分布式的大型语言模型（LLM）架构，提高 LLM 在异构计算平台上的可访问性和可部署性，实现按需访问和定制化服务，并在用户与应用需求之间取得最佳权衡，推动人工智能技术的进步。

Jan, 2024

移植大型语言模型到移动设备以进行问答

将大型语言模型部署在移动设备上，使得所有自然语言处理的能力可在设备上使用；LLM 的重要用例是问答系统，可以提供准确和上下文相关的回答给用户的各种查询，并通过将 Orca-Mini-3B 模型的 6 位量化版本应用在 Galaxy S21 智能手机上，实验结果表明 LLM 推理在交互速度下进行，并能给出高质量的与政治、地理或历史相关的用户查询的答案。

Apr, 2024

L2MAC：大型语言模型自动计算机无限编码生成

Transformer-based language models are limited by a fixed window size, but this paper proposes L2MAC, a memory-augmented stored-program automatic computer that can generate long and consistent code surpassing the limitations of the context window, fulfilling complex user-specified requirements.

Oct, 2023

LLM 闪电般的运算：利用有限内存高效推理的大型语言模型

本研究旨在通过使用闪存将模型参数存储在 DRAM 之外，以满足超过 DRAM 容量的大型语言模型（LLMs）的高效运行需求。本文提出了两种主要技术，即通过重新使用已激活的神经元来减少数据传输的 “窗口化” 与利用闪存的顺序数据访问能力来增加数据块大小的 “行列捆绑”。这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行，并在与传统加载方法相比，CPU 和 GPU 分别实现 4-5 倍和 20-25 倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计，为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。

Dec, 2023

LLM 加速、优化和应用的新解决方案

该研究综述了针对大型语言模型（LLMs）的挑战以及提高系统效率的最新进展和研究方向，包括算法级加速技术、LLM 硬件与软件协同设计策略、LLMs 加速器编译方法以及利用 LLMs 辅助电路设计的方法。通过这些工作，旨在为 LLMs 在各种应用中实现更高效、可扩展的部署铺平道路。

Jun, 2024

GenTranslate：大型语言模型是生成式跨语音和机器翻译器

利用大型语言模型的丰富语言知识和强大的推理能力，我们提出了一种新的生成式翻译范式 ——“GenTranslate”，可以从 N 个候选译文中生成更高质量的翻译结果，并且在各种语音和机器翻译基准测试中明显优于现有模型。

Feb, 2024

通过启用中间层解码加速 LLM 推理

我们的研究工作通过指令调整大型语言模型的推理过程，提升其效率同时保持生成质量，这是推广应用这类模型的重要一步。

Oct, 2023

大语言模型的高效推论综述

大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题，本文对提高大规模语言模型推理效率的现有技术文献进行了综述，介绍了数据层、模型层和系统层优化的方法，并通过实验进行了定量分析，最后总结了相关知识，并探讨了未来研究方向。

Apr, 2024