BriefGPT.xyz
Ask
alpha
关键词
cuda kernels
搜索结果 - 4
SIP: 通过随机指令摄动自动调优 GPU 本地调度
通过自动优化搜索空间和随机搜索方法,我们实现了 GPU 原生指令优化,从而进一步提高了 CUDA 核心的吞吐量,并通过 1000 万个测试样本对优化后的指令进行了测试。
PDF
3 months ago
快速:量化感知的交错和无冲突内核用于高效 LLM 推理
QUICK 是一组新型优化的 CUDA 内核,用于高效推理量化的大型语言模型。QUICK 解决了现有混合精度矩阵乘法内核中的共享内存冲突问题,通过离线交错量化的权重矩阵跳过解量化后的共享内存写回。我们展示了在较大批次上相对于 AutoAWQ
→
PDF
5 months ago
多分辨率哈希编码的即时神经图形基元
通过多分辨率哈希表和 CUDA 核心的并行处理,我们能够在几秒钟内训练和呈现高品质的神经图形原语,极大地减少了浮点运算和内存访问操作。
PDF
2 years ago
ICLR
使用 PyTorch Geometric 进行快速的图形表征学习
PyTorch Geometric 是一个基于 PyTorch 的深度学习库,用于处理不规则结构的输入数据,如图形,点云和流形。该库通过利用稀疏 GPU 加速,提供专用的 CUDA 内核以及引入对不同大小的输入示例的高效小批量处理,实现了高
→
PDF
5 years ago
Prev
Next