llm inference | BriefGPT - AI 论文速递

关键词llm inference

搜索结果 - 16

通过张量分解和运行时重新定量化加速大型语言模型
基于算法和硬件协同设计的解决方案 Tender，能够以低精度有效部署 LLM 推理，通过分析 LLMs 中的异常值，提出了一种分解的量化技术，其分解矩阵的尺度因子相隔为二的幂，该方案避免了显式的重新量化，并且在现有加速器中具有更高的准确性和
PDF16 days ago
语言模型可以从环境反馈中推断经典计划器的动作语义
提出使用经典规划和大型语言模型共同实施领域归纳、学习和验证动作的前后条件，利用 LLM 推理来启发性地完成经典规划器发出的部分计划，并根据执行后的环境反馈用逻辑语言推断领域的语义规则。通过对 7 个环境的分析表明，使用 LLMs 作为启发性
PDFa month ago
PrivacyRestore: 大型语言模型中的隐私保护推断：通过隐私去除和恢复
本文提出了 PrivacyRestore 来保护 LLM 推理过程中用户输入的隐私信息，通过激活控制和隐私恢复技术实现，实验结果表明 PrivacyRestore 能在保护隐私信息的同时保持良好的性能和推理效率。
PDFa month ago
MiniCache：大型语言模型的键值缓存深度维度压缩
通过对大型语言模型的键 - 值缓存进行压缩，以降低内存占用，并提高高吞吐量和优化压缩比率。
PDFa month ago
vAttention：为无需 PagedAttention 的 LLM 提供动态内存管理
为了解决 GPU 内存的高吞吐量 LLM 推理的问题，该论文提出了 vAttention 的动态 KV-cache 内存管理方法，相较于 PagedAttention 模型，vAttention 在连续虚拟内存中保留 KV-cache，并利
PDF2 months ago
移植大型语言模型到移动设备以进行问答
将大型语言模型部署在移动设备上，使得所有自然语言处理的能力可在设备上使用；LLM 的重要用例是问答系统，可以提供准确和上下文相关的回答给用户的各种查询，并通过将 Orca-Mini-3B 模型的 6 位量化版本应用在 Galaxy S21
PDF2 months ago
大语言模型的高效推论综述
大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题，本文对提高大规模语言模型推理效率的现有技术文献进行了综述，介绍了数据层、模型层和系统层优化的方法，并通过实验进行了定量分析，最后总结了相关知识，并探讨了未来研
PDF2 months ago
RAGCache: 检索增强生成的高效知识缓存
通过集成大型语言模型（LLM）和外部知识数据库，检索增强生成（RAG）在各种自然语言处理任务中展现了显著的改进。然而，RAG 引入了长序列生成，导致了高计算和内存成本。我们提出了一种针对 RAG 量身定制的新型多级动态缓存系统 Thoth，
PDF2 months ago
在关系型工作负载中优化 LLM 查询
本文探讨了如何优化在关系查询中调用大型语言模型的 LLM 推断，包括重排行以最大化 LLM 推断引擎内的键值（KV）缓存重用，重排列列以进一步增加缓存重用，并去重复冗余的推断请求。我们在 Apache Spark 中实现了这些优化，在真实数
PDF4 months ago
推理过程中不需要所有 LLM 层
利用适应性输入实例的简单算法 AdaInfer，在 Large Language Models 的推理阶段中使用浅层次进行简单实例的推理和深层次进行困难实例的推理，可在节省计算资源的同时保持性能。
PDF4 months ago
Query-OPT: 通过多查询指令优化会议摘要中大型语言模型的推理
该研究探讨了使用大型语言模型（LLMs）进行基于查询的会议摘要生成任务，通过在单个提示中组合相同输入上下文的查询以最小化重复调用，优化推理成本，发现多数 LLMs 对于多查询指令存在响应，但除 GPT-4 外，即使进行了微调，几乎所有 LL
PDF4 months ago
LLM 推理揭示：调查及屋顶线模型洞见
大型语言模型 (LLM) 推理的高效领域正迅速发展，我们的研究通过基于屋顶线模型的框架，系统分析 LLM 推理技术，鉴别 LLM 部署瓶颈，深入理解实际设备的实际方面，并综合整理权重优化、解码算法改进和硬件系统增强等关键领域的最新进展，提供
PDF4 months ago
Hydragen：具有共享前缀的高吞吐量 LLM 推理
基于转换器的大型语言模型现已应用于数亿用户。本文提出了 Hydragen，一种有硬件感知的精确关注力实现，它对共享前缀和唯一后缀分别计算注意力。该方法可以提高最多 32 倍的端到端语言模型吞吐量，并能使用非常长的共享上下文。
PDF5 months ago
使用词汇缩减的大型语言模型推理
大型语言模型的推理对计算和内存要求较高，因此我们通过词汇筛选改进了其性能，可以显著减少内存使用并提高生成速度。然而，我们也发现了此类词汇选择方法的局限性，并提出了未来研究的方向。
PDF8 months ago
FlashDecoding++: 在 GPU 上更快的大型语言模型推理
FlashDecoding++ 是支持主流 LLM 和硬件后端的快速 LLM 推理引擎，通过引入异步 softmax、平坦 GEMM 优化和启发式数据流等技术，相较于 Hugging Face 实现，在 NVIDIA 和 AMD GPU 上
PDF8 months ago
革命性的移动互动：在移动设备上支持 30 亿参数的 GPT LLM
AI 领域近年来取得了显著的进展，尤其是基于变压器架构的强大大型语言模型（LLMs）的出现。本文介绍了一种创新的 LLM 推理方法，展望了在无需网络连接的情况下，拥有数十亿参数的 LLMs 可以直接在移动设备上执行的未来。该应用程序不仅作为
PDF9 months ago