- OPT-Tree:具有自适应草稿树结构的猜测解码
OPT-Tree 算法通过构建自适应和可扩展的缓冲树结构,实现了一步生成多个标记,从而解决了自回归语言模型中推理效率受限的问题。该算法优于现有的缓冲结构,与自回归解码相比,实现了最高 3.2 倍的加速比。
- 基于 FFT-ReLU 的盲图像去模糊及其深度学习管线集成
图像盲去模糊是从模糊图像中提取出清晰图像和模糊核的过程。本研究提出了一种新的先验(ReLU 稀疏性先验),能够在各种图像分布(自然图像、人脸图像、文本图像、低光图像、饱和图像等)上有效地估计模糊核。我们的方法在 PSNR、SSIM 和错误比 - SUBLLM:LLM 的一种新型高效架构及令牌序列子采样
通过提出 SUBLLM 架构,本文解决了大型语言模型中训练和推断的效率问题,通过引入子采样、上采样和旁路模块,SUBLLM 在训练和推断速度以及内存使用方面取得了显著的改进。
- 通过推测解码实现更快级联
设计新的推测性串行技术,通过推测执行实现其推迟规则,以获得比串行和推测解码基线更好的成本 - 质量平衡。
- 稀疏展开和神经元解缠
我们展示了如何通过将 LLM 扩展为稀疏专家的混合体来提高其推理效率,其中每个专家是原始权重的副本,经过一次性修剪以特定输入值簇的方式修剪。我们称这种方法为 ' 稀疏扩展 '。我们展示了对于像 LLama 270B 这样的模型,随着稀疏专家 - COLING以 LLM 为基础通过并行解码词汇单元实现思考速度解码
通过引入词汇单元解码(LUD)方法,本文在不牺牲输出质量的情况下加速解码过程,有效减少生成速度而仍保持生成质量,并提出 LUD 可能为未来的语言模型定义一种新的解码范式,提升其应用的适用性。
- SFDDM: 单折蒸馏扩散模型
提出了一种基于单次折叠蒸馏算法的教师 - 学生蒸馏方法,可以在保持高质量合成图像的情况下加速推断并压缩扩散模型,实现语义一致性和有意义的图像插值。
- ACL大型语言模型高效推理的层压化 KV 缓存
提出了一种新的方法,只计算和缓存少量层的键值以大幅节省内存消耗并提高推理吞吐量。在大型语言模型上的实验证明,该方法的推理吞吐量比标准 Transformer 高 26 倍,同时在语言建模和下游任务中具有竞争性能。此外,该方法与现有的 Tra - DeepSeek-V2: 一种强大、经济高效的专家混合语言模型
DeepSeek-V2 是一种经济高效的 Mixture-of-Experts(MoE)语言模型,具有 236B 总参数,支持 128K tokens 的上下文长度。通过创新的架构,如 Multi-head Latent Attention - FlashBack: 长文本推理的高效检索增强语言建模
通过将外部语料库的相关文档与大型语言模型(LLM)集成,检索增强语言建模(RALM)是一种已被证明的方法,可以让 LLM 生成超出其预训练语料库范围的信息。本文提出了 FlashBack,一种模块化的 RALM,通过在上下文末尾附加检索到的 - LLMs 检索增强的连续提示学习中的终身知识编辑
RECIPE 是一种 RetriEval-augmented ContInuous Prompt Learning 方法,旨在提高模型编辑效果和推理效率,通过将知识语句转换为短且信息丰富的连续提示,并与知识哨兵(KS)结合使用,进一步集成检 - 点击率预测的检索导向知识
本文提出了一种通用的即插即用检索导向的知识(ROK)框架,通过设计一个知识库,利用知识蒸馏和对比学习方法来优化知识库,并将学习到的检索增强表示与任意 CTR 模型以实例级和特征级的方式进行集成,从而实现了与基于检索的 CTR 模型相当的性能 - IJCAI超越投机游戏:大型语言模型中投机执行调查
通过引入推测执行的概念,对大型语言模型进行推理加速,提升解码速度,该研究综述了当前推测执行在大型语言模型中的应用,并提出了关键挑战和未来发展方向。
- 大型语言模型的推理效率从粗粒度到细粒度评估
通过对各种代码库的推理性能进行粗细的分析,本研究提供了研究人员评估代码库和改进推理策略的宝贵综合结果。
- CVPR关于多模态大型语言模型的推理解码
通过在 MLLMs 中应用推测解码,特别是 LLaVA 7B,我们展示了一个仅语言模型可以作为推测解码的优秀起草模型,绕过了起草模型中图像令牌和其相关处理组件的需求。我们的实验证明,推测解码可以在三个不同任务中实现高达 2.37 倍的内存速 - CQIL:并发计算准独立层优化推理延迟
大规模语言模型中的并行计算减少推理延迟,提高性能。
- 面向推理最优的混合专家大语言模型
基于混合专家的大型语言模型(如最近的 Mixtral 和 DeepSeek-MoE)在规模大小上显示出巨大潜力,其训练成本不会像密集变换器那样呈二次增长。然而,我们发现增加专家的数量会导致递减收益,因此我们建议将推理效率作为模型缩放定律的指 - 将 NeRF 与特征匹配相结合的一步姿态估计
基于图像的姿态估计方法,结合 NeRF 技术实现了实时的机器人应用,通过建立 2D-3D 对应关系和改进的点挖掘策略提高了准确性,并且在代表性数据集上的实验结果表明,相比于现有方法,推断效率提高了 90 倍,能够以 6 帧每秒的速度进行实时 - 针对 ViT 适应的参数和推理效率的动态调整
现有的参数高效微调(PEFT)方法通过提高参数效率,在视觉变换器(ViTs)适应中取得了显著的成功,然而,在适应过程中改善推理效率的探索仍未充分开展,这限制了预训练 ViT 模型的广泛应用,特别是在计算上耗费较多的情况下。在本文中,我们提出 - 跨语言词汇适应的实证研究:高效生成式 LLM 推理
对五种生成式大型语言模型进行了实证研究,探讨了跨语言词汇适应方法对提高模型推理效率的有效性,发现跨语言词汇适应可大幅提升模型推理速度高达 271.5%,同时适应更平衡的多语种数据可以使下游性能接近原始模型。