- 创建支持 OpenMP Fortran 和 C++ 代码翻译的数据集
本研究提出了一个新的机器学习模型训练数据集,用于翻译 OpenMP Fortran 和 C++ 代码,使用代码相似性测试进行数据集的初步筛选,该数据集可以显著提高大规模语言模型的翻译能力,并突出了该数据集在高性能计算代码翻译领域推动的潜力。
- 高性能数据框架的并行处理模式深度分析
本文介绍基于高性能计算的分布式 DataFrame 操作常见模式和成本模型,同时评估了 Cylon 在 ORNL Summit 超级计算机上的性能表现。
- 喷射流与高爆药互动的时空替代物:第一部分 —— 小样本分析
本研究通过一个二维的喷气与高爆相互作用问题,探讨如何构建高质量的拟数据,同时分析大量数据集的方法,并提出了提高拟合精度的简便方法。
- MM评估 OpenAI Codex 在 HPC 并行编程模型内核生成方面的表现
本文通过使用 AI 辅助生成能力和 GitHub Copilot 生成的不同语言(C++,Fortran,Python 和 Julia)的高性能计算的基本数值内核代码,提出了一种衡量模型和编程模型之间关系的 “熟练度度量标准”,研究结果显示 - LM4HPC:高性能计算中有效的语言模型应用
本文设计了 LM4HPC 框架,以促进利用语言模型进行高性能计算 (HPC) 软件分析和优化的研究和开发。该框架针对支持 HPC 的数据集、AI 模型和流水线进行了定制,可以帮助用户快速评估一组最先进的模型并生成有洞察力的排行榜。
- 学习多物理量反演的可微编程与机器学习
本文介绍了 SLIM 开源软件框架,该框架可用于计算地球物理学和反演问题,包括波动方程(如地震和医疗超声),具有学习先验的正则化和学习神经替代物用于多相流模拟。通过集成多个抽象层,我们的软件既可读性强又可扩展,从而使研究人员可以轻松地以抽象 - 神经模拟退火在高性能计算集群拓扑感知作业分配优化中的应用
本文研究了窗口式的拓扑感知作业分配问题(TJAP)在 fat-tree 网络上的应用,旨在通过一个定义的干扰度度量标准最小化通信跳数,讨论了两种不同的分配策略,并提出了一种名为神经模拟算法(NSA)的新方法。结果显示,所提算法均有效。
- 加速贝叶斯决策树的并行方法
本文提出两种应用并行处理的方法以替代传统的 Markov Chain Monte Carlo (MCMC),即采用 Sequential Monte Carlo (SMC) 取样器或数据分区,并通过实验测试发现在多核处理器中使用 SMC 比 - RUAD: 针对 HPC 系统的无监督异常检测
该研究提出了一种基于长短期记忆单元的 RUAD 模型来解决高性能计算系统中异常检测的无监督学习问题,该模型通过考虑数据中的时间依赖性显著提高了半监督和无监督状态下的 AUC 性能表现。
- 开放协作中的分布式深度学习
本文研究了 Deep Learning 中在协作训练上的瓶颈,提出了一种适用于协作训练的新算法框架,并在实际条件下展示了该方法对 SwAV 和 ALBERT 的预训练效果,结果表明该方法的性能与传统设置相当,成本仅为传统设置的一小部分。最后 - AMYTISS:用于大规模随机系统的并行自动控制器合成
本文提出了一种名为 AMYTISS 的软件工具,用于为大规模随机系统设计构造正确控制器。该工具利用高性能计算平台和云计算服务解决了状况膨胀问题,并以几个案例研究来验证了其性能表现。
- Faasm: 高效状态有关的轻量级无服务器计算的隔离技术
Faaslets 是一种高性能服务器计算的隔离抽象,它使用 WebAssembly 提供的软件故障隔离来隔离已执行函数的内存,同时允许在相同的地址空间中共享内存区域,从而避免产生昂贵的数据移动。与标准容器平台的比较表明,Faasm 能够在训 - EPIC: 一种高能效、高性能的 GPGPU 计算研究基础设施
高性能计算对许多研究问题的追求有着至关重要的作用,使用 GPGPU 等资源是一种更快的解决方法,为此,NTNU 建立了 EPIC GPGPU 计算研究基础设施来满足这种需求。
- 中级帕洛玛短时变源工厂:实时图像差分管线
本文介绍了中间波罗马短暂工厂的实时图像减法管道,利用高性能计算、高效数据库和机器学习算法,该管道能够在图像拍摄的十分钟内可靠地提供瞬变候选者。我们使用高性能计算资源处理天文大数据的经验,为处理大规模时域设施的数据奠定了基础。
- PyCUDA 和 PyOpenCL:基于脚本的 GPU 运行时代码生成方法
本研究介绍了 GPU 运行时代码生成技术和两个支持该技术的开源工具包 PyCUDA 和 PyOpenCL,提出了结合动态高级脚本语言和 GPU 的潜在优势,旨在为计算科学中的大规模应用提供更高的性能和生产力。此技术通过多个实例的成功应用来说