- SEED: 通过计划的推测解码加速推理树构建
这篇论文介绍了 SeeD,一种新颖而高效的推理框架,以同时优化运行时速度和 GPU 内存管理。通过采用预定的推测执行,SeeD 能够高效处理思维生成和状态评估的多次迭代,利用一种按轮次预定的策略来管理草稿模型的调度。在三个推理数据集上进行的 - UpDLRM: 使用真实世界的 PIM 架构加速个性化推荐
利用实际世界的处理内存 (PIM) 硬件 UPMEM DPU,提出 UpDLRM,以增加内存带宽并减少推荐延迟。通过利用 DPU 内存的并行特性,可以为嵌入式查找中的大量不规则内存访问提供高聚合带宽,从而在推理时提供巨大潜力来降低延迟。通过 - 利用 Goodput 优化为大型语言模型提供服务的概念解码
减少大型语言模型(LLM)的推理延迟至关重要,我们开发了 SmartSpec 动态框架,根据一个新的名为 goodput 的度量来动态确定每个请求的最佳推测长度,从而将平均请求延迟降低了多达 3.2 倍。
- 扩散语言建模的承诺、展望与挑战
现代自回归型大型语言模型在自然语言处理基准测试中表现出色并应用于实际领域。然而,它们仍然受到自回归训练范式的一些限制。本文评估了最近提出的基于得分熵离散扩散 (SEDD) 的方法,并表明它是自回归生成的有希望的替代方案,但也存在一些不足之处 - Flash-VStream:基于内存的长视频实时理解
在这篇论文中,我们介绍了一种名为 Flash-VStream 的视频语言模型,它模拟了人类的记忆机制,能够实时处理极长的视频流并同时对用户查询进行响应。与现有模型相比,Flash-VStream 在推理延迟和 VRAM 消耗方面实现了显著的 - AsyncDiff:通过异步去噪并行化传播模型
利用多设备之间的模型并行性,通过对多个组件进行异步处理,AsyncDiff 显著缩短推理延迟,同时最小程度地影响生成质量。
- 非自回归模型词汇扩容用于高效生成式检索
该论文研究了非自回归语言模型作为生成式检索的更高效的替代方法,并提出了 PIXAR,一种扩展目标词汇的新方法,通过包括多词实体和常见短语(高达 500 万个标记)来减少标记之间的依赖性,并通过推理优化策略在保持低推理延迟的同时实现了好于标准 - ACLCEEBERT:早期退出 BERT 的跨领域推断
提出了一种名为 CeeBERT 的在线学习算法,该算法通过根据每个退出点处的置信水平动态确定样本的早期退出,从而消除了标记数据的需求,并且在最少降低性能的情况下改善了延迟。
- 加速动态猜测长度的猜测解码
DISCO 是一种动态调整推断长度优化方法,通过使用分类器在每个迭代中动态调整推断长度,从而提供推断质量的同时实现平均 10.3% 的速度增益。
- 一种 65 纳米 36 纳朱 / 决策生物启发的时间稀疏感知数字关键字检测 IC,采用 0.6 伏近门限 SRAM
这篇论文介绍了一种基于时间稀疏性的细粒度关键词检测技术,它利用输入帧的特征向量和网络隐藏状态之间的时间相似性,消除了不必要的操作和内存访问。该技术采用了生物启发式的 Delta 门控循环神经网络(ΔRNN)分类器,在 Google 语音指令 - 计算机视觉任务中的块 / 输出通道剪枝的分离,动态和可微 (SMART) 剪枝器
深度神经网络剪枝是减少模型大小、提高推理延迟和降低深度神经网络加速器功耗的一种关键策略。我们介绍了一种新型的、独立且可微的剪枝方法 (SMART pruner),它通过利用独立的、可学习的概率掩码来排名权重重要性,采用可微分的前 k 个操作 - CVPR非自回归序列到序列视觉语言模型
通过多路推断并使用 Query-CTC 损失函数训练的并行解码序列到序列视觉 - 语言模型(NARVL),不再限制为条件分布,能够建模多个推断路径的联合分布,从而在推断时减少了线性复杂度与顺序生成的常态联合推断模式相比达到了与最先进自回归模 - 关于量化大型语言模型的可压缩性
通过应用数据压缩技术来减少数据传输,从而提高在内存受限设备上量化化的大型语言模型推理的速度。
- 优化的深度神经网络在纳米无人机上的视觉姿态估计部署
通过使用深度神经网络进行视觉姿态估计任务的新型自动优化流程,本研究针对小型自主无人机的智能化实现提出了两种不同的神经架构搜索算法,采用一套新颖的软件核心,通过并行超低功耗的片上系统在现成的纳米无人机上执行关键深度神经网络层序列,成功提高了当 - 高召回率大约前 k 个预估用于高效 LLM 推理
使用大型语言模型生成的自回归解码在加速器(GPU/TPU)上通常受限于内存,而通过适当训练模型以在前馈层的高 $k$ 部分上操作,从而减少模型参数传输和减少延迟的潜力受到数据依赖性和矩阵运算的限制。为解决这些问题,我们引入了 HiRE(高召 - 无需回顾:一种高效可扩展的时间网络表征学习方法
该论文介绍了一种高效的时间图表示学习(TGRL)框架,No-Looking-Back(NLB),通过使用一个 GPU 可执行的大小受限哈希表记录降采样的最近互动,实现了快速查询响应和最小的推理延迟,并在链接预测和节点分类中超过了其他竞争方法 - 双加密网络:利用不同层面的隐私进行加密推理
该研究采用隐私保护神经网络中的不同方法,通过敏感和非敏感部分的分解以及密文和明文的分支,利用同态加密和知识蒸馏等技术提高信息安全性、降低推理延迟。
- AAAI通过移除 GELU 激活函数加速整数 SWIN Transformer 的推断
通过移除 SWIN Transformer 中的 GELU 激活,并用 ReLU 激活代替,我们使用迭代式知识蒸馏方法,在保持准确度下降低于 0.5% 的同时,至少提高了 11% 的量化 SWIN Transformer 的推理延迟。
- 大语言模型推理中的效率增强:专门解码的综合调查
通过提出实例、讨论关键方面,总结了 Speculative Decoding 的定义、技术、挑战和未来方向,以加速 LLM 推理过程。
- 具有可跳过子路径的自适应深度网络
系统地在运行时适应网络深度可以有效地控制推理延迟并满足各种设备的资源条件。本文提出了一种适应深度网络的架构模式和训练方法,在单个网络中提供灵活的准确性 - 效率权衡。