- 月饼:Kimi 的基于 KVCache 的 LLM 服务架构
Mooncake 是一种基于 KVCache 的分散架构,用于提供 Kimi 服务,通过利用 GPU 集群的未充分利用的 CPU、DRAM 和 SSD 资源来实现 KVCache 的分散缓存,并通过 KVCache 调度程序,平衡最大化整体 - CVPRALGM:适应性局部 - 全局令牌合并用于基于纯视觉变换的高效语义分割
本研究介绍了一种自适应的局部 - 全局合并(ALGM)方法,用于在使用普通视觉变换器的语义分割网络中进行令牌减少。ALGM 在两个阶段中合并令牌:(1)在第一个网络层中,它通过一个小的局部窗口合并相似的令牌,(2)在网络的一半处,它合并整个 - 2BP:2 阶段反向传播
通过将反向传播步骤分为两个独立阶段,本文引入 2 阶段反向传播(2BP),以减少空闲计算时间,并在各种模型架构和管道调度上测试 2BP,从而在所有情况下实现吞吐量的增加。使用 2BP,相较于传统方法,在训练一个类似 LLaMa 的 Tran - BASS: 批处理优化注意力的推测采样
该论文描述了一种批处理的推测解码系统,在多序列生成延迟方面达到了最新的技术水平,并在时间预算内展示出卓越的 GPU 利用率和生成质量。
- 基于代理模型的序列长度预测的高效互动 LLM 服务
通过使用轻量级代理模型来预测 LLM 输出序列长度,我们提出了一种具有推测的最短作业先执行调度程序,以解决 LLM 非确定性特性并实现高效的互动式 LLM 服务。相对于 FCFS 调度程序,在无批处理、动态批处理和连续批处理设置下,对真实世 - Hydra: 针对 Medusa 解码的顺序依赖性起草头部
通过使用基于顺序依赖的 Hydra heads 作为 draft heads 的替代品,本文显著提高了推测准确性,并借此提高了推测解码速度。
- 导向图优化的多智能体路径规划的终身学习
我们研究了如何利用引导来提高终身多智能体路径规划(MAPF)的吞吐量。我们提出了两种 GGO 算法来自动生成适用于任意终身 MAPF 算法和地图的引导,并通过实验证明我们的引导图能够提高三个典型终身 MAPF 算法在四个基准地图上的吞吐量。
- 探讨推测性解码
使用分析模型来选择适合特定工作负载的合适草稿模型,以提高推理速度并设计适用于 LLaMA-65B 的新草稿模型,能够提供比现有草稿模型高 30% 的吞吐量。
- DeepSpeed-FastGen:基于 MII 和 DeepSpeed-Inference 的 LLM 高吞吐文本生成
DeepSpeed-FastGen 是一个采用动态 SplitFuse 策略的系统,相较于 vLLM 等现有系统,在吞吐量上提高了 2.3 倍,平均延迟降低了 2 倍,并且在 token 级别尾延迟降低了最高达 3.7 倍,通过采用 Dee - GHOST:使用硅光子学的图神经网络加速器
本文介绍了第一个基于硅光子硬件加速器 GHOST,通过在光域中分别实现与图神经网络运行所涉及的三个主要阶段,可用于各种广泛使用的 GNN 模型和架构的推断,并证明了它在吞吐量和能效方面的优势。
- ACL回归模式:使用特征序列 Trie 进行高效的日本语形态分析
本研究使用最快的基于模式的 NLP 方法,以提高其精度,从而为日语提供简单而准确的形态分析器,该方法可以每秒处理超过 1,000,000 个句子在现代 CPU 上,而与学习为基础的基线相比呈现出相当的准确性。
- ATHEENA: 硬件早期退出网络自动化工具流
提出 ATHEENA 工具流,利用输入依赖性计算,通过早期退出网络来降低平均计算量,进而提高分类效率和准确度,最终实现了 $2.00 imes$ 至 $2.78 imes$ 的吞吐量增加
- 面向终身多智能体路径规划的公路研究
本文主要研究如何在 lifelong MAPF 中使用 highway 方法解决地图规模增大、密度增大等问题,以减少 deadlocks 现象并优化 throughput,实验证明 runtime 得到改进。
- ICLRToken Merging:让您的 ViT 更快
Token Merging(ToMe)是一种简单的方法,可以提高现有 ViT 模型的吞吐量,无需进行训练。ToMe 逐渐合并转换器中相似的标记,使用一种通用且轻量级的匹配算法,可以像修剪一样快速,并具有更高的准确性。ToMe 的准确性和速度 - DataMUX: 神经网络数据复用
本文介绍了 DataMUX 技术,通过多路复用层和解复用层,深度神经网络可同时处理多个输入,减少内存需求,具有较高吞吐量,可适用于不同的神经网络结构和任务。
- 使用卷积神经网络扩展在线语音识别能力
本研究设计了一种基于时深可分卷积与连接时序分类的在线端到端语音识别系统,通过优化核心架构,高效的波束搜索解码器以及提升性能指标的分析,系统吞吐量提高 3 倍,延迟降低同时保持更好的词语误差率。
- 在嵌入式 ARM big.LITTLE 多核处理器上进行高吞吐量 CNN 推理
本文介绍了一种名为 Pipe-it 的替代框架,它采用流水线设计将卷积层分布在多个簇中,从而限制各自卷积内核的并行化,以提高 IoT Edge 智能的推理效率。使用性能预测模型利用卷积层描述符预测各允许的内核配置(类型和数量)上每个卷积层的 - 无人机的蜂窝网络连接:网络建模、性能分析和设计准则
通过对服务无人机和地面用户的蜂窝网络的用户和网络级性能进行深入分析,提出了一种解决 UAV 融入蜂窝网络的最佳解决方案,包括抬升 UAV 天线的倾角,优化信令等方式。
- 网络欧几里得信息理论
本文介绍了利用信息论框架扩展到多跳网络研究的方法,构建了一种新的确定性模型,通过此模型,对多层网络进行了最大吞吐量的线性优化问题的探讨,并研究了反馈(feedback)在多层网络中的作用。结果表明,适当反馈可以提高传输效率,为协同合作提供基 - 无细胞 Massive MIMO:为每个人提供均匀卓越的服务
本文提出了一种优化的最大最小功率控制方案,以确保所有用户获得相等的服务质量,并比较了小区系统和无小区海量 MIMO 系统的性能差异,结果发现 Cell-Free 系统的吞吐量更加集中且更加稳定。