BriefGPT.xyz
Ask
alpha
关键词
cuda kernel
搜索结果 - 2
提升推理速度:蝶式稀疏矩阵乘法的高效 GPU 内存管理
通过一项全面的基准测试,本研究评估了目前 GPU 上用于蝶形稀疏矩阵乘法算法的现状,旨在为用户提供一个简单的工具来选择最佳算法实现。结果显示现有实现在内存重写操作上耗费了总运行时间的高达 50%。同时,引入一种新的 CUDA 核心可以优化这
→
PDF
a month ago
MM
CUDA 内核融合研究案例:在 NVIDIA Hopper 架构上使用 CUTLASS 库实现 FlashAttention-2
我们提供了 FlashAttention-2 前向传递的优化实现,使用了自定义融合的 CUDA 内核,以适应 NVIDIA Hopper 架构,并使用开源的 CUTLASS 库编写。在此过程中,我们解释了将在线 softmax 与连续的 G
→
PDF
7 months ago
Prev
Next