并行增强地图
本文探讨了 MapReduce 框架的算法方面,并通过设计和分析处理基本的排序、搜索和仿真问题的 MapReduce 算法展示了我们的方法的有效性。
Jan, 2011
本文提出了一种基于概率的 API 挖掘算法 PAM,该算法近乎无需参数调整,能够挖掘最有趣的 API 调用模式,并在 GitHub 上证明了其性能优越性,达到了 69% 的测试集精度。
Dec, 2015
PAM(Partitioning Around Medoids)是一种常用的聚类技术,本文提出了一种基于稀疏和非对称变体的方法,用于处理图数据等大规模问题,通过利用稀疏性,可以避免二次运行时间和内存要求,并使用贪婪初始解和优化操作相结合的策略来确定聚类个数以解决传统启发式算法无法找到好的初始条件的问题。
Sep, 2023
本文介绍了两种针对大规模稀疏线性规划问题的并行双重单纯法求解器的设计与实现,其中一种利用了名为子优化的旋转策略的并行性,另一种则利用了单次迭代并行性。数值实验表明,PAMI 求解器的性能优于领先的开源单纯形求解器,并且当 PAMI 导致速度减缓时,SIP 对其进行加速。本研究的成果在计算优化领域中具有重要意义,代表了实用性和商业重要性方面的重大突破。
Mar, 2015
本文提出了 PAM 算法的修改,以达到算法第二个步骤中 O (k) 倍的加速,同时发掘了选择初始核心点的其他策略,实验证明与原始 PAM SWAP 算法相比,算法速度可提升 200 倍,适用于大型数据集和更高的 K 值。
Oct, 2018
我们设计、分析和优化基于分区本地深度(PaLD)的顺序和共享内存并行算法。通过对成对距离进行三元比较,我们设计了两种算法变体来执行社区结构分析。通过理论分析计算和通信成本,我们证明了顺序算法在通信上的最佳性能。我们介绍了性能优化策略,使得顺序实现相对于基线顺序实现加速高达 29 倍,并且在 Intel 多核 CPU 上使用 32 个线程时相对于优化顺序实现加速高达 19.4 倍。
Jul, 2023
大规模数据集上的机器学习(ML)训练是一项非常昂贵和耗时的工作负载,处理器中心化体系结构(例如,CPU,GPU)常用于现代 ML 训练工作负载,但受制于数据移动瓶颈,即不断访问训练数据集。因此,处理器中心化系统面临着性能下降和高能耗的问题。内存中处理(PIM)是缓解数据移动瓶颈的有希望的解决方案,将计算机制放置在或靠近内存中。我们的目标是了解流行的分布式优化算法在现实世界的 PIM 架构上加速数据密集型 ML 训练工作负载的能力和特性。结果表明,现代通用 PIM 体系结构可以成为许多内存受限的 ML 训练工作负载与最先进的 CPU 和 GPU 的可行替代方案,当 PIM 硬件本地支持操作和数据类型时。此外,仔细选择最适合 PIM 的优化算法以及对于许多数据密集型 ML 训练工作负荷而言,当节点数增加时,与常见观点相反,现代 PIM 架构不能实现线性扩展。为了促进未来的研究,我们打算开源我们的完整代码库。
Apr, 2024
本研究通过对数据访问和计算模式的分析,以深度优化算法和硬件,提出了两种利用 PIM 范式进行机器学习和混合事务 / 分析处理的数据中心架构。
May, 2022
本文主要介绍了如何在四种平衡二叉搜索树中实现有序集合的集合操作,并证明了这些操作的工作效率。同时,我们通过实验测试发现,这些算法在不同的平衡二叉搜索树中执行时间和速度相似,并将其与其他现有的库和算法进行了比较。
Feb, 2016