inference acceleration | BriefGPT

关键词inference acceleration

搜索结果 - 28

GNN 中的加速算法调查
图神经网络 (GNN) 在各种基于图的任务中显示出有效性，然而他们在训练和推理中的低效性给实现规模化的实际世界和大规模图应用带来挑战。为了解决这些关键问题，提出了一系列加速 GNN 训练和推理的算法，吸引了研究界的越来越多的关注。本文对 G
PDF2 months ago
ICML可切换的决策：动态神经生成网络
通过动态分配计算资源来加速推理，我们的动态神经生成网络在问题回答、摘要和分类基准测试中表现出少量的计算成本，同时保持相同的准确性。
PDF2 months ago
高稀疏性基础 Llama 模型的高效预训练和部署
通过稀疏性，我们能够以较小的模型实现更快的训练和推理加速，并且不牺牲准确性。
PDF2 months ago
高级推理解码的预备模型直接对齐与聊天细调语言模型
通过提出一个简单的草稿模型训练框架，直接对齐与聊天目标模型，我们通过个别的预训练、蒸馏数据集生成以及知识蒸馏的微调，成功训练了仅为原始模型大小的 1.64% 的 Llama 2 Chat Drafter 115M，该模型结合了先进的推测解码
PDF4 months ago
ProSparse: 大型语言模型中引入并增强内在激活稀疏性
本文介绍了一种名为 “ProSparse” 的有效稀疏化方法，通过将大型语言模型中的激活函数替换为 ReLU，并采用沿正弦曲线逐渐增加的因子的渐进稀疏正则化，实现了更高的激活稀疏性而不降低模型性能，从而提供了实际的推理加速。
PDF4 months ago
EdgeQAT：基于熵和分布的量化感知训练用于边缘轻量级语言模型加速
提出了一种新的轻量级语言模型优化方法 EdgeQAT，通过熵和分布引导的量化感知训练，动态量化不同位宽的令牌，从而在边缘设备上实现推理加速，并实验证明其与 FP16 模型相比在多个边缘设备上可以达到高达 2.37 倍的速度提升。
PDF5 months ago
Medusa: 多解码头简单的 LLM 推理加速框架
在这篇论文中，我们介绍了一种名为 Medusa 的方法，通过增加额外的解码头来预测并行的多个后续标记，从而提高 LLM 推理的效率，并减少所需的解码步骤。通过两个级别的精细调整程序，Medusa 可以满足不同用例的需求。此外，我们还提出了几
PDF5 months ago
F3 剪枝：一种无需训练并具有广泛适用性的剪枝策略，用于更快速和更精细的文本到视频合成
近期的文本到视频综合技术在大规模数据集上利用 Transformer 或扩散模型取得了突破，但是推断这些大规模模型代价高昂。为了解决这一问题，研究探索了两个主流的文本到视频模型（基于 Transformer 和扩散模型）的推断过程，并发现了
PDF7 months ago
模块化注意力复用技术用于低延迟推理
使用 Prompt Cache 方法，可以通过在不同的大型语言模型提示之间重复使用注意力状态来加快推理速度。这种方法通过预先计算和存储输入提示中经常出现的文本段的注意力状态，以在用户提示中高效地重用它们。在多个大型语言模型上的评估显示，Pr
PDF8 months ago
SparseByteNN：一种基于细粒度分组稀疏性的新型移动推理加速框架
为了解决网络规模增大的挑战，研究者通过网络剪枝开发了稀疏模型。然而，在通用计算设备上实现显著加速的同时保持模型准确性仍然是一个未解决的问题。在本文中，我们提出了一种新颖的移动推理加速框架 SparseByteNN，通过利用细粒度的内核稀疏性
PDF8 months ago
EMNLP提升推理效率：释放参数共享的预训练语言模型的力量
参数共享的预训练语言模型（PLMs）已成为资源受限环境中成功的方法，在不牺牲性能的情况下显著降低了模型存储和内存成本。本文利用神经常微分方程（ODEs）构建了一种简单的技术，提高了参数共享 PLMs 的推理效率，并提出了一种简单的预训练技术
PDF8 months ago
基于节点自适应传播的加速可扩展的图神经网络推理
大规模图的实时推断对于图神经网络 (GNNs) 提出了一项重大挑战，但我们提出了一种在线传播框架和两种新的节点自适应传播方法来加速可扩展 GNNs 的推断过程，并通过简单的超参数灵活管理准确性和时延之间的平衡。此外，我们进一步提出了 Inc
PDF8 months ago
EMNLPLLMLingua：压缩大型语言模型推理加速的提示
LLMLingua 是一种粗粒度到细粒度的提示压缩方法，利用预算控制器、基于令牌级的迭代压缩算法和基于指令调整的语言模型分布对齐方法，实现高压缩率下语义完整性的维持，有效加速模型推理并降低成本。在多个不同场景的数据集上的实验和分析表明，该方
PDF9 months ago
ICML加速 LLM 推断的分阶段推测解码
利用大型语言模型（LLM）的最新进展，我们提出了一种新颖的算法 —— 分阶段投机性解码，以加速小批量、设备上的 LLM 推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先，我们将投机性批量重新组织为一棵树，这降低了
PDFa year ago
TransNormer 模型参数适配至 1750 亿
我们提出了 TransNormerLLM，这是第一个基于线性注意力的大型语言模型（LLM），在准确性和效率方面均超过了传统的基于 softmax 注意力的模型。
PDFa year ago
重访目标检测和实例分割的 Token 剪枝
本研究探究了基于图像分类方法的 Token 剪枝技术在目标检测和实例分割中的应用，提出了四种见解，包括：应在特征映射中保留 Token、可重激活过去剪枝的 Token 以提高模型性能、动态剪枝率比固定剪枝率更好、简单的 2 层 MLP 能有
PDFa year ago
基于低于 4 位整数量化的大规模压缩语言模型记忆高效调优
提出了一种基于量化的参数高效微调方法 PEQA，通过一个双阶段的策略将每个全连接层的参数矩阵量化成低比特整数矩阵和标量向量，然后对每个下游任务的标量向量进行微调，从而在模型压缩和加速推理的同时，实现了快速微调和高效任务切换，并在大型语言模型
PDFa year ago
基于生命回归的视觉变压器局部细化
本研究提出了一个基于生命周期回归模块的图像分割方法，它可以在减少计算量及参数的情况下，提高推理速度，在保持竞争性能的同时需要较少的训练历程。
PDFa year ago
渐进式通道收缩网络
本文提出了一种逐步通道压缩（PCS）方法，以在运行时动态压缩选定的显著度条目，代替粗略地将它们近似为零。并提出一种运行缩小策略，提供一种测试静态的修剪方案，可以减少滤波器索引的内存访问成本，结果表明 PCS 在图像分类任务中超越了所有基线，
PDFa year ago
使用 CTC 指导加速 RNN-T 训练和推断
通过协同训练的 CTC 模型的指导，我们提出了一种新颖的方法来加速基于递归神经网络传输器 (RNN-T) 的训练和推理过程，并通过在编码器中进行帧降维操作来减少计算量。在 Librispeech 和 SpeechStew 任务上评估表明，新
PDF2 years ago