- 利用自动微分和神经传输在天体粒子物理中进行快速推断
应用 GPU 加速、自动差分和神经网络引导重新参数化等新技术,我们研究了多维参数空间中的天体粒子物理实验结果,并将其性能与传统嵌套采样技术进行了对比,发现这些技术可以加速推理过程,提高模型比较性能。
- torchmSAT:一个 GPU 加速的最大可满足性问题的近似算法
利用机器学习技术将离散结构与组合优化算法集成,提出一种能够近似求解最大满足性问题的可微函数,设计了一种新颖的神经网络结构并借助后向传播逐步求解问题,通过利用 GPU 进行计算加速,论文实验证明这种方法在挑战性的最大满足性问题上优于两种现有求 - PANDORA:单链接聚类的并行树状图构建算法在 GPU 上的应用
本研究提出了一种针对单链接层次聚类(包括 hdbscan)高效构建树状图的新型并行算法 pandora,通过独特的递归树合并方法以及支持 GPU 加速的实现,使 pandora 在处理实际数据中的倾斜树时无需考虑渐进性工作最优,相较于目前最 - 量子增强支持向量机与 GPU 加速的大规模恒星分类
我们引入了一种革新性的量子增强支持向量机(QSVM)方法,利用量子计算和 GPU 加速来进行恒星分类,QSVM 算法在处理复杂的二元和多类别情况下显著优于传统方法,尤其是在哈佛恒星分类系统中。量子原理的整合显著提高了分类准确性,而使用 cu - InkStream:通过增量更新的流图上的实时 GNN 推断
基于对 $k$ 跳邻域内节点的分析以及节点嵌入的增量演化,我们提出了一种名为 InkStream 的新颖方法,旨在实现实时推断以及对 GPU 加速,同时确保与传统方法相同的输出结果。
- CoLA:利用组合结构进行自动和高效的数值线性代数
该研究提出了一种名为 CoLA(组合线性代数)的大规模线性代数问题的简单而通用的框架,通过将线性操作符抽象与组合调度规则相结合,CoLA 自动构建了内存和运行时高效的数值算法,同时提供内存高效的自动微分、低精度计算和 JAX 和 PyTor - RT Cores 加速无限制邻居搜索 (RT-kNNS Unbound)
在此研究中,我们提出了 TrueKNN,这是第一种无界 RT 加速邻近搜索。TrueKNN 采用递增策略,在搜索空间逐步增加直到所有点都找到其 K 个邻居。我们发现,这种方法比现有方法快数个数量级,甚至可以用于加速固定半径邻近搜索。
- 基于 Tempotron 的脉冲形状鉴别:一种在 GPU 上的强大分类器
本研究介绍了 Tempotron,一种基于第三代神经网络模型的强大分类器,能够直接处理脉冲信号,无需手动提取特征,其使用 GPU 加速处理的实验结果表明,相对于基于 CPU 的模型,Tempotron 模型具有 500 倍以上的加速程度,可 - CVPR利用 GPU 友好的稀疏化和量化增强视觉 Transformer
本文通过应用 2:4 结构稀疏化与量化方法,并在裁剪和量化进程中使用混合策略知识蒸馏,设计了一种压缩方案,可以在几乎无损精度降低的情况下将视觉变压器模型的大小减少 6.4-12.7 倍并提高实际部署性能。
- AAAI量化感知区间边界传播用于训练可证明鲁棒性的量化神经网络
本文研究了在保证噪声攻击后的量化神经网络的训练和认证问题,并提出了一个能够完全利用 GPU 加速的 QA-IBP 训练方法和验证流程,大大优于现有方法,已成为量化神经网络鲁棒性训练和认证新的标准。
- ECCV全局最优事件驱动下降估计用于腹面降落
使用事件相机和 GPU 加速,本研究提出一种用于预测生物发酵飞行朝向表面时刻距的新方法,包括一种新的对比度最大化公式和一种分支界定算法,并构建了一个新的真实事件数据集来测试和评估该方法的性能
- PyTorch 图像质量:图像质量评估指标
该论文介绍了一个名为 PyTorch Image Quality (PIQ) 的库,旨在实现最流行的现代图像质量评估算法,并且经过验证可以可靠地实施。同时,该论文还介绍了该库的原理、评估策略、性能测试和 GPU 加速的优势。
- TorchSparse: 高效点云推理引擎
本文介绍 TorchSparse,一种高效的基于 GPU 加速的稀疏卷积计算引擎,应用于 AR/VR、自动驾驶等方面。通过采用自适应矩阵乘法分组技术和集成向量化、量化及融合的本地化优化存储访问技术,实现了 1.4-1.5 倍的速度提升和 2 - 面向推荐系统训练的异构加速管线
Hotline 是一种数据感知和模型感知调度 pipeline,它通过实现一种动态的硬件加速器和馈送到 GPU 的方法,通过 GPU 加速减少训练时间,相比于现有的 CPU-GPU 混合模式,Hotline 平均训练时间降低了 3 倍,并且 - 用于快速同胚图像配准的 Nesterov 加速 ADMM
本文提出了一种使用简单的迭代方案和基于 Nesterov 梯度下降和多重乘法交替方向法的快速算法解决难以处理的大形变的非静止速度场,同时利用 GPU 加速实现加速 ADMM 求解器,优于基于深度学习的和迭代 DiffIR 方法,并在精度方面 - ACL循环神经网络语法的有效批处理
本文提出了基于批处理的 RNN-Grammar 训练方法,并借助 PyTorch 实现在 GPU 上显著加速训练和推断过程,并在大规模的训练数据集和广泛的句法评估基准测试中验证了批处理 RNN-Grammar 的性能优势。
- 利用热门选择加速推荐系统训练
通过研究推荐数据的使用方式和特征,本文提出了一种称为 FAE 框架的热嵌入感知数据布局,利用有限的 GPU 内存存储高访问嵌入,以减少 CPU 到 GPU 的数据传输并加速执行,从而将推荐模型的训练时间降低了 2.3 倍。
- 利用 GPU 加速图机器学习中的图采样
该论文介绍了一个名为 NextDoor 的系统,该系统使用称为 transit-parallelism 的新方法,在 GPU 上高效执行图形采样,并比现有系统运行得更快,该系统提供给终端用户撰写各种图形采样算法的高级抽象。
- 通过划分稀疏矩阵块提高无硬件支持的稀疏 DNN 模型加速
本文提出了一种算法 - 软件共同设计的剪枝方法,采用 “分块友好” 的稀疏模式来实现现有的密集结构上的延迟加速,旨在解决原先稀疏模型上由于随机分布权重导致计算不规则的问题,在 GPU 笔记本上成功地实现了 1.95 倍速度提升的优化效果。
- SparseRT: 基于 GPU 加速的深度学习推断非结构化稀疏矩阵运算
本文介绍了一种基于 unstructured sparsity 的 code generator - SparseRT,通过对于 1x1 convolutions 以及 fully connected layers 进行计算,该方法相对于