- 适用于多重图案布局分解的 GPU 加速矩阵覆盖算法
通过将 CPU 数据结构替换为 GPU 并行矩阵运算,提出了一种用于解决多重图案刻蚀技术中面向确切覆盖的布局分解算法的加速方案,实验结果表明,该系统能够实现全尺寸、超快速的布局分解,并且与现有的布局分解方法相比,可以实现超过 10 倍的速度 - DevelSet:基于深度神经水平集的即时掩模优化
本文提出了 DevelSet 框架,它是一种 GPU 加速的、基于深度神经网络的水平集 OPC 框架,可用于金属层的光刻,相比于现有技术,在适性和运行时间方面有显著提升。
- ICLR实现可持续深度神经网络训练的低碳电力追求
该论文提出了一个名为 Chase 的解决方案,通过实时监控碳强度变化和控制 GPU 的能源消耗,减少了深度学习训练的碳足迹。同时,该方案还提出了一种轻量级机器学习算法,用于预测未来时间段的碳强度,实现主动适应。在 ResNet-50 在 I - Point-E: 从复杂提示生成 3D 点云的系统
利用文本条件生成 Diffusion 模型以减少 GPU 显存需求,从而在单 GPU 上仅需 1-2 分钟生成 3D 点云模型。
- evosax: 基于 JAX 的进化策略
通过 GPU 加速计算及发布基于 JAX 的 evosax 库支持的 30 种演化式算法及硬件优化,本文探究了深度学习和演化式优化间的结合,以进一步推动黑箱优化算法的发展。
- MegaBlocks:混合专家梯度稀疏训练的高效实现
MegaBlocks 是一种用于 GPU 上高效混合专家模型 (MoE) 的系统,通过块稀疏操作优化 MoE 计算,在不丢弃信息的前提下提高硬件效率,能够实现 40% 的训练加速。
- 大规模深度推荐模型的 GPU 专用推理参数服务器
本文介绍了 HugeCTR Hierarchical Parameter Server(HPS),这是一种结合了高性能 GPU 嵌入式缓存和分层存储架构的行业领先的分布式推荐推断框架,可将端到端推理延迟显着降低至 5-62 倍,并可以通过多 - 超级计算环境中分布式深度学习的 Top-k 梯度稀疏化实证分析
该论文研究了使用 Top-k SGD 方法减少通信流量来提高深度学习模型在多 GPU 下的训练性能,但是因为在 GPU 上进行梯度排序效率低下,所以该方法具有局限性,提出未来工作的高性能梯度稀疏化方法。
- 基于 GPU 的聚类快速词汇投影法用于多语机器翻译
本文提出了一种通过聚类实现快速词汇投影的方法,以用于 GPU 上的多语言 transformers,结果显示在保持 BLEU 得分的同时,在浮点 GPU 推理速度上最高可提高 25%,并最高可提高 2.6 倍的词汇投影速度。
- ECCV小型和中型矩阵的批量高效特征分解
本文提出了一种基于 QR 分解的、专门针对计算机视觉应用情景下的批量矩阵 / 向量乘法计算的 EigenDecomposition 方法,通过使用显式 QR 迭代和多个加速技巧,将 QR 迭代的时间复杂度从 O (n^5) 降低到 O (n - ICML可扩展的多智体强化学习高性能模拟
本论文介绍了一种高性能代理基于模型的框架 ——Vogue,可以支持成千上万的互动代理的训练环境,此规模的高性能多智能体环境有望实现在复杂系统中建立灵活且健壮的策略。本研究展示了两个新开发的大规模多智能体训练环境的训练表现,并表明这些环境可以 - 基于剪枝的 RNN-T 模型进行快速、高效的自动语音识别训练
该论文介绍了一种更快,更节省内存的 RNN-T 损失计算方法,用于提高语音识别系统的计算速度和效率。
- AAAI针对 GPU 的经典机器学习问题优化
该论文扩展了 GENO 框架以在 GPU 上解决约束优化问题,其性能比当前流行的算法(如 CVXPY 与 GPU 加速算法)高出数个数量级。该框架使用易于阅读的建模语言描述了约束优化问题。
- PGMax: JAX 环境中用于离散概率图模型的因子图和循环置信传播算法
PGMax 是一个基于 Python 开发的开源软件包,可用于轻松说明离散概率图模型(PGMs)作为因子图,并自动运行使用 JAX 中的高效可伸缩的环形置信传递(LBP),同时支持通用因子图和可计算因子,并利用现代加速器如 GPU 实现推断 - 机器学习训练工作负载的动态 GPU 能量优化
本研究提出 GPOEO 在线 GPU 能源优化框架,使用性能计数器进行多目标建模,通过梯度提升和局部搜索算法平衡执行时间与能耗,结果表明平均节能 16.2%。
- QGTC:使用 GPU 张量核加速量化图神经网络
该论文提出了一种基于张量核心的计算框架 QGTC,支持 GPU 上的 QGNN 的任何位宽计算,实验结果表明 QGTC 相对于 Deep Graph Library 框架平均加速了 2.7 倍。
- Isaac Gym:面向机器学习的高性能 GPU 物理仿真平台
该研究证明了使用 Isaac Gym 平台进行机器人学习的高效性,其在 GPU 上进行物理模拟和神经网络策略培训,大大提高了单 GPU 上复杂机器人任务训练的速度。
- ACLPython 中的文本分类主动学习
介绍一个易于使用的主动学习库,名为 small-text,它提供了用于单标签和多标签文本分类的基于池的主动学习。该库集成了许多先进的查询策略,包括一些利用 GPU 的策略,并且可以与多种分类器、查询策略和停止标准结合使用。我们使用该库研究了 - 双侧稀疏张量核
本文提出了一种新颖的架构来有效地利用权重和激活的稀疏性,通过外积计算原语和位图编码格式将二者结合起来。通过针对现有常见计算模式(矩阵乘法和卷积)的矩阵乘法和卷积算法的协同设计,提出一组新的 ISA 扩展,实现了这种设计,抓住现今深度神经网络 - ICLR深度强化学习大批量模拟
该论文在复杂的 3D 环境中,通过设计以 “batch simulation” 为原则的 3D 渲染器和模拟器来加速基于深度强化学习的训练,使用单个 GPU 每秒获得超过 19,000 帧的经验,并在单个 8-GPU 机器上每秒获得最高达