- BM25S:通过积极的稀疏打分实现数量级更快的词汇搜索
BM25S 是一种高效的 Python 实现,通过在索引过程中计算 BM25 得分并将其存储为稀疏矩阵,相比最流行的 Python 框架提高了多达 500 倍的速度。它还相对于高度优化的基于 Java 的实现有显著的加速效果,并且通过使用一 - SpecDec++:通过自适应候选长度提升推测解码能力
通过使用较小且更快的草稿模型,推测解码可减少目标大型语言模型的推理延迟。本文以候选长度 K 作为超参数进行研究,并将其形式化为马尔科夫决策过程,理论上证明了最优策略采用阈值策略,在预测的被拒概率超过阈值时终止当前推测。基于这一理论,我们提出 - Lancet: 通过整图计算 - 通信重叠加速混合专家训练
我们的研究扩展了 Mixture-of-Expert (MoE) 技术在训练过程中的重叠性挑战,并通过特定的分区和流水线技术实现了非 MoE 计算与 all-to-all 通信的重叠。我们的 Lancet 系统在自动增强 MoE 模型训练时 - FLAASH:用于稀疏高阶张量收缩的灵活加速器架构
这篇论文介绍了一个灵活且模块化的加速器设计,用于稀疏张量收缩,在深度学习工作负载中实现了超过 25 倍的加速效果。
- FireANTs:自适应黎曼优化用于多尺度同胚配准
本文提出了基于多尺度自适应黎曼优化算法的可微分图像配准,该算法在结构和地标覆盖度量上显示出了令人信服的改进,并在现有算法的基础上加速了 300 倍至 2000 倍。
- Lasso 和 Logistic Lasso 的快速方法
我们提出了一种快速方法来解决压缩感知、Lasso 回归和逻辑回归问题,通过使用主动集方法迭代运行适当的解算器。我们设计了一种更新主动集的策略,相对于单个调用多个解算器,包括稀疏重构的梯度投影(GPSR)、Matlab 的 lassoglm - 带窗口过滤器的近似最近邻搜索
我们定义和研究了 $ extit {c - 近似窗口搜索}$ 的问题,即在数据集中每个点具有数字标签,并且目标是在任意标签范围内找到 Queries 的最近邻。我们提出并理论分析了基于模块化树结构的方法,用于将解决传统 c - 近似最近邻问 - 仅解释一次
该研究提出了一种新的黑盒可解释性算法和工具 YO-ReX,用于有效解释目标检测器的输出。新算法同时计算图像中所有检测到的对象的解释,与基线相比,新算法可以减少查询次数 10 倍,速度随对象数量增加而进一步提高。实验结果表明,YO-ReX 可 - 具有影响助力的规范形式的快速精确 NPN 分类
NPN 分类使用基于规范形式的方法来提高计算速度,该方法通过引入布尔影响来计算规范形式,以减少转换枚举,实验结果表明,准确的 NPN 分类中我们使用的影响增强的规范形式能够获得 5.5 倍的加速。
- MIM-OOD: 针对医学图像中的离群检测的生成式遮罩图像建模
使用两个与任务相关的 Transformer,通过应用 MIM 模型来替代 AR 模型,实现对脑部 MRI 异常的快速检测和修复,明显优于 AR 模型,并获得近 25 倍的加速。
- 利用单个电路计算量子神经网络对所有参数的梯度
本文提出了一种仅需一个量子电路就能计算量子神经网络梯度的方法,该方法减少了电路深度和经典寄存器数量,同时解决了解决原方法中参数数量较多时所面临的电路调整和重复运行的问题,并在实验中展示了快速编译的优势和缩短总运行时间的速度提升。
- 通过本地机器学习校正来改善 CFD 模拟
本研究使用机器学习模型逆向预测了网格加粗导致的信息丢失程度,并将该信息加回到低分辨率模拟中以提高模拟质量,并演示了此方法在加速模拟过程中不会牺牲解的精度,从而使 CFD 的代价 / 精度权衡更有利。
- SuperScaler: 通过统一抽象支持灵活的 DNN 并行化
SuperScaler 是一个可生成高度灵活并可实现 3.5 倍速度提升的并行化计划的系统,能够处理越来越复杂的深度神经网络结构和模型大小对 GPU 加速器的需求。
- 深林模型的高效 FPGA 加速器
本文提出了一种有效的硬件加速器,第一次在 FPGA 上实现深度森林模型,通过精细的节点计算单元、高效的架构和自适应数据流以及优化的存储方案,显著缩短计算时间,提高硬件利用率和功耗效率。
- Paraformer:用于非自回归端到端语音识别的快速准确并行 Transformer
为了加速端到端语音识别中的推理,本文提出了一个名为 Paraformer 的快速且精确的并行 Transformer,其能够通过利用一种基于连续积分和火的预测器来预测令牌数量并生成隐藏变量,并使用瞥见语言模型(GLM)实现语义嵌入,最后设计 - InferGrad:在训练中考虑推理以提高语音生成器(Vocoder)中的扩散模型
InferGrad 是一种基于扩散模型的音码器,其将推断过程融入了训练过程中以减少推断迭代次数,从而提高合成语音的质量,实验表明 InferGrad 在相同条件下比波形梯度(WaveGrad)获得更好的语音质量,并且在保持相同语音质量的同时 - DiGamma: 面向领域的遗传算法,用于 DNN 加速器的 HW-Mapping 联合优化
本研究提出了一种基于硬件与映射的协同优化框架,通过采用一种高效的编码方式与基于领域知识的遗传算法 DiGamma,成功提高了搜索效率,实现了在边缘和云环境中比基准优化算法快 3.0 倍和 10.0 倍的计算速度。
- ECCVBLT: 双向布局变换器用于可控布局生成
提出一种基于双向非自回归 Transformer 的条件图形布局生成模型 BLT,通过学习掩盖属性并调整掩盖策略,实现可控图形布局的生成,其在速度和准确性上优于现有的布局 Transformer 模型。
- 深度学习的稀疏 GPU 内核
本文提出一种基于稀疏矩阵的计算优化方法,通过对深度学习应用中的稀疏矩阵进行深入研究,开发出可用于稀疏矩阵与密集矩阵乘法和采样密集 - 密集矩阵乘法的高性能 GPU 核,实现了神经网络模型的加速和内存节省。
- CodedPrivateML:分布式机器学习的快速隐私保护框架
介绍了一种名为 CodedPrivateML 的机器学习模型训练方法,该方法保护数据和模型的隐私并允许分布式训练,并实验表明其在逻辑回归方面的收敛效果以及相比基于多方计算 (MPC) 的密码学方法有重大速度提升。