- 深度神经网络的高效并行计算中的循环数据并行
通过 Cyclic Data Parallelism 和 Model Parallelism 技术,在训练大型深度学习模型的过程中,减少了内存的需求以及 GPU 的使用,提升了模型的执行效率。
- 基于深度强化学习的计算流体力学中主动流控的最佳并行化策略
通过对深度强化学习(DRL)算法在并行设置中进行优化,提高了非线性活动流控制问题中现有 DRL 框架的效率,并通过对输入 / 输出操作的优化实现了高性能计算架构上的线性扩展,从而获得约 78% 的并行效率和 60 个 CPU 核心加速大约 - 扩散模型并行采样的加速
通过并行化自回归过程,我们提出了一种用于加速扩散模型采样的新方法,称之为 ParaTAA。在实验证明 ParaTAA 可以将 DDIM 和 DDPM 等常见顺序采样算法的推理步骤减少 4~14 倍,并且可以在仅 7 个推理步骤中,以与顺序采 - 使用连续运行分布预测 SAT 局部搜索的并行加速
本文通过分析顺序版本算法的运行时行为,提出了一种评估给定算法并行性能的框架,并将此方法应用于研究两种 SAT 局部搜索求解器的并行性能,结果表明模型能够准确预测性能并展示了不同情况下局部搜索求解器的运行时分布。
- 简化交叉验证:高效地导出列向正规化和标准化的训练集 X'X 和 X'Y,避免全量重新计算矩阵乘积或统计矩
本文介绍了三种有效计算未见数据集上预测模型性能的算法,它们在计算复杂度和正确性方面表现优越,并且相比于直接交叉验证和快速交叉验证的先前工作,它们提供了显著的交叉验证加速,而无需数据泄漏。同时,本文还重点介绍了这些算法与改进的 Kernel - 普适串行计算的并行化
计算序列中的元素在并行计算中的应用
- MAD Max 超越单节点:在分布式系统上加速大规模机器学习模型
基于真实世界的大规模模型训练和数据中心规模基础设施,我们展示了 14~32% 的 GPU 时间用于非重叠计算的通信。为了最小化未完成的通信延迟,在这项工作中,我们开发了一个灵活的性能建模框架来指导并行化和硬件软件共同设计策略。通过使用现代 - 并行多目标超参数优化的均匀归一化与有界目标
机器学习模型的超参数优化是一个具有多目标的挑战性问题,本研究提出了一种多目标贝叶斯优化算法,通过统一目标规范化和随机化权重在标量化中解决了不同目标尺度的问题,并通过限制目标来提高算法效率,最后通过并行化加速了优化过程。
- 鲁棒优化蒙特卡罗的可扩展 Python 实现
利用 Python 软件包 ELFI 实现的、前瞻性的高度并行化的 Robust Optimisation Monte Carlo(ROMC)似然无关推断(LFI)框架,用于从后验中提供准确的加权样本,可被科学家用作即插即用的 LFI 算法 - 自动流星探测新嵌入式应用程序的并行化
该研究介绍了一种用于将计算机视觉应用程序并行化的方法,该应用程序能够自动从非稳定的相机和嘈杂的视频序列中检测流星。该应用程序设计为嵌入气象气球或用于空中观测任务,因此最终目标是一个低功率的片上系统(小于 10 瓦),而软件需要实时计算连续的 - 通过并行得分匹配实现扩散模型的更快训练和改进密度估计
本文提出一种基于独立神经网络的时间划分模型来快速提高 DPMs 训练速度和提升密度估计性能。
- 共享知识生命周期学习的轻量级学习器
该研究介绍了一种名为 SKILL (Shared Knowledge Lifelong Learning) 的挑战,它采用了一种去中心化的人工智能智能体种群,每个智能体都被分配了不同的任务, 在学习其各自任务后,代理人使用分散的通信网络共享 - 基于图形转换器的 OpenMP 并行化建议
本文提出了一个基于 Transformer 的模型 OMPIfy,它利用源代码的图形表示来检测和预测并行代码中的 OpenMP Pragmas 和共享内存属性,使用大量的开源代码和最新的 AI 和自然语言处理技术,解决了自动并行化的问题。在 - MPI-rical:基于数据驱动的 Transformer 辅助 MPI 分布式并行计算
研究了在高性能计算中,将串行代码转换为多线程代码以在共享和分布式内存系统上实现源到源并行化是具有挑战性的任务,并提出了一个基于转换器的模型(MPI-rical)的新方法,该模型使用 25,000 个串行代码片段及其相应的并行化 MPI 代码 - 并行机器学习算法的性能和能耗
本文讨论了在高性能计算中,采用低功率算法以优化机器学习模型的效率,并测试逻辑回归、神经网络等算法在不同数据规模、模型复杂度下的并行加速表现。
- WWWTIGER: 带重启的时间交互图嵌入
该研究提出了一种名为 TIGER 的时序图嵌入模型,引入了一个重启模块来生成代理表示,使模型能够从多个时间戳同时重启,从而使模型能够并行。与之前的模型不同,该模型引入了双重记忆模块以更好地利用邻域信息并减轻旧问题。
- SuperScaler: 通过统一抽象支持灵活的 DNN 并行化
SuperScaler 是一个可生成高度灵活并可实现 3.5 倍速度提升的并行化计划的系统,能够处理越来越复杂的深度神经网络结构和模型大小对 GPU 加速器的需求。
- 使用深度学习解决图上的前向微分问题
提出了一种基于深度学习和物理知识的神经网络模型用于解决在图上的非线性偏微分方程问题,并以分配每个神经网络模型至图的特定边缘,通过对训练损失函数添加惩罚项来实现对 Kirkhoff-Neumann(KN)节点条件的推断以及并行处理的功能。
- 高效的策略空间响应预测
该研究提出了 Efficient PSRO 方法来解决传统 Policy Space Response Oracle 方法中存在的计算和探索效率低的问题,通过引入 no-regret optimization 和 parallelizati - SCIP 优化套件 8.0
SCIP Optimization Suite Version 8.0 adds several enhancements and extensions such as improvements in symmetry handling a