inference efficiency | BriefGPT

关键词inference efficiency

搜索结果 - 73

OPT-Tree：具有自适应草稿树结构的猜测解码
OPT-Tree 算法通过构建自适应和可扩展的缓冲树结构，实现了一步生成多个标记，从而解决了自回归语言模型中推理效率受限的问题。该算法优于现有的缓冲结构，与自回归解码相比，实现了最高 3.2 倍的加速比。
PDF11 days ago
基于 FFT-ReLU 的盲图像去模糊及其深度学习管线集成
图像盲去模糊是从模糊图像中提取出清晰图像和模糊核的过程。本研究提出了一种新的先验（ReLU 稀疏性先验），能够在各种图像分布（自然图像、人脸图像、文本图像、低光图像、饱和图像等）上有效地估计模糊核。我们的方法在 PSNR、SSIM 和错误比
PDF24 days ago
SUBLLM：LLM 的一种新型高效架构及令牌序列子采样
通过提出 SUBLLM 架构，本文解决了大型语言模型中训练和推断的效率问题，通过引入子采样、上采样和旁路模块，SUBLLM 在训练和推断速度以及内存使用方面取得了显著的改进。
PDFa month ago
通过推测解码实现更快级联
设计新的推测性串行技术，通过推测执行实现其推迟规则，以获得比串行和推测解码基线更好的成本 - 质量平衡。
PDFa month ago
稀疏展开和神经元解缠
我们展示了如何通过将 LLM 扩展为稀疏专家的混合体来提高其推理效率，其中每个专家是原始权重的副本，经过一次性修剪以特定输入值簇的方式修剪。我们称这种方法为 ' 稀疏扩展 '。我们展示了对于像 LLama 270B 这样的模型，随着稀疏专家
PDFa month ago
COLING以 LLM 为基础通过并行解码词汇单元实现思考速度解码
通过引入词汇单元解码（LUD）方法，本文在不牺牲输出质量的情况下加速解码过程，有效减少生成速度而仍保持生成质量，并提出 LUD 可能为未来的语言模型定义一种新的解码范式，提升其应用的适用性。
PDFa month ago
SFDDM: 单折蒸馏扩散模型
提出了一种基于单次折叠蒸馏算法的教师 - 学生蒸馏方法，可以在保持高质量合成图像的情况下加速推断并压缩扩散模型，实现语义一致性和有意义的图像插值。
PDFa month ago
ACL大型语言模型高效推理的层压化 KV 缓存
提出了一种新的方法，只计算和缓存少量层的键值以大幅节省内存消耗并提高推理吞吐量。在大型语言模型上的实验证明，该方法的推理吞吐量比标准 Transformer 高 26 倍，同时在语言建模和下游任务中具有竞争性能。此外，该方法与现有的 Tra
PDF2 months ago
DeepSeek-V2: 一种强大、经济高效的专家混合语言模型
DeepSeek-V2 是一种经济高效的 Mixture-of-Experts（MoE）语言模型，具有 236B 总参数，支持 128K tokens 的上下文长度。通过创新的架构，如 Multi-head Latent Attention
PDF2 months ago
FlashBack: 长文本推理的高效检索增强语言建模
通过将外部语料库的相关文档与大型语言模型（LLM）集成，检索增强语言建模（RALM）是一种已被证明的方法，可以让 LLM 生成超出其预训练语料库范围的信息。本文提出了 FlashBack，一种模块化的 RALM，通过在上下文末尾附加检索到的
PDF2 months ago
LLMs 检索增强的连续提示学习中的终身知识编辑
RECIPE 是一种 RetriEval-augmented ContInuous Prompt Learning 方法，旨在提高模型编辑效果和推理效率，通过将知识语句转换为短且信息丰富的连续提示，并与知识哨兵（KS）结合使用，进一步集成检
PDF2 months ago
点击率预测的检索导向知识
本文提出了一种通用的即插即用检索导向的知识（ROK）框架，通过设计一个知识库，利用知识蒸馏和对比学习方法来优化知识库，并将学习到的检索增强表示与任意 CTR 模型以实例级和特征级的方式进行集成，从而实现了与基于检索的 CTR 模型相当的性能
PDF2 months ago
IJCAI超越投机游戏：大型语言模型中投机执行调查
通过引入推测执行的概念，对大型语言模型进行推理加速，提升解码速度，该研究综述了当前推测执行在大型语言模型中的应用，并提出了关键挑战和未来发展方向。
PDF2 months ago
大型语言模型的推理效率从粗粒度到细粒度评估
通过对各种代码库的推理性能进行粗细的分析，本研究提供了研究人员评估代码库和改进推理策略的宝贵综合结果。
PDF3 months ago
CVPR关于多模态大型语言模型的推理解码
通过在 MLLMs 中应用推测解码，特别是 LLaVA 7B，我们展示了一个仅语言模型可以作为推测解码的优秀起草模型，绕过了起草模型中图像令牌和其相关处理组件的需求。我们的实验证明，推测解码可以在三个不同任务中实现高达 2.37 倍的内存速
PDF3 months ago
CQIL：并发计算准独立层优化推理延迟
大规模语言模型中的并行计算减少推理延迟，提高性能。
PDF3 months ago
面向推理最优的混合专家大语言模型
基于混合专家的大型语言模型（如最近的 Mixtral 和 DeepSeek-MoE）在规模大小上显示出巨大潜力，其训练成本不会像密集变换器那样呈二次增长。然而，我们发现增加专家的数量会导致递减收益，因此我们建议将推理效率作为模型缩放定律的指
PDF3 months ago
将 NeRF 与特征匹配相结合的一步姿态估计
基于图像的姿态估计方法，结合 NeRF 技术实现了实时的机器人应用，通过建立 2D-3D 对应关系和改进的点挖掘策略提高了准确性，并且在代表性数据集上的实验结果表明，相比于现有方法，推断效率提高了 90 倍，能够以 6 帧每秒的速度进行实时
PDF3 months ago
针对 ViT 适应的参数和推理效率的动态调整
现有的参数高效微调（PEFT）方法通过提高参数效率，在视觉变换器（ViTs）适应中取得了显著的成功，然而，在适应过程中改善推理效率的探索仍未充分开展，这限制了预训练 ViT 模型的广泛应用，特别是在计算上耗费较多的情况下。在本文中，我们提出
PDF4 months ago
跨语言词汇适应的实证研究：高效生成式 LLM 推理
对五种生成式大型语言模型进行了实证研究，探讨了跨语言词汇适应方法对提高模型推理效率的有效性，发现跨语言词汇适应可大幅提升模型推理速度高达 271.5%，同时适应更平衡的多语种数据可以使下游性能接近原始模型。
PDF5 months ago