普适串行计算的并行化
我们介绍了一种新的并行算法,该算法通过优先计算相同指数的数字来减轻浮点算数中误差问题,并通过精度、收敛性和可重现性等性质的广泛分析来验证其有效性。我们还选择了 Simpson,Jacobi,LU 因数分解和迭代幂法等代表性数值方法来展示算法的实用性。
May, 2022
本研究提出第一个能够在分布式内存上实现 Tucker 分解的并行算法,通过压缩科学模拟产生的大规模数据,尽量保持数据准确性。对使用该算法的真实数据集进行了压缩和精度分析,并提供了详细的性能结果,包括弱和强缩放实验中的并行性能。
Oct, 2015
本文章提出了使用 Jacobi 或 Gauss-Seidel 定点迭代方法来并行化前馈计算任务,以实现在神经网络评估和自回归模型采样等机器学习任务中的加速。实验表明,该方法在加速反向传播和评估 DenseNets 和 autoregressive sampling 任务中具有高效性,并在不同设置下显示出 2.1 至 26 倍的加速因子。
Feb, 2020
本文介绍了一种基于 MapReduce 编程范式实现的并行计算算法,在树内核学习方法中应用广泛的交叉子树核计算的顺序算法基础上,优化计算时间,扩展了算法的适用性。实验表明,并行算法在树语言数据集上的计算效率远高于序列算法。
May, 2023
本文针对最小化部分可分平滑凸函数和简单可分离凸函数之和的问题,展示了随机(块)坐标下降法在并行化时可以加速。 研究表明,与串行方法相比,在高概率下近似解决问题所需的迭代次数的理论加速比简单地依赖于并行处理器数量和目标函数平滑部分可分离的自然且易于计算的可分离度度量。 此外,当每次迭代更新的块数是随机的时,该算法的处理能力也非常出色,并可以解决涉及具有 200 亿个非零元素的矩阵的 LASSO 问题。
Dec, 2012
本文提出了一种异步并行随机坐标下降算法,它具有线性收敛速率和 $1/K$ 的次线性速率,可实现基于多核系统的近线性加速,并取得了在 40 核处理器上的实现结果。
Nov, 2013
该研究旨在通过改进基于傅里叶 / 切比雪夫级数表示的算子实现通用技术,构建了一个可以求解线性系统方程的量子算法,该算法在时间复杂度方面与精度具有同等重要的依赖性。
Nov, 2015
本文介绍了一个在通信工程、数学和计算机科学中应用的二进制序列问题,其应用还涉及到金融统计物理中的 Bernasconi 模型。本文回顾了最近的算法,并提出了一种新算法,该算法可以在时间 Θ(N×1.73^N) 内找到长度为 N 的最优序列。作者计算了长度为 N 小于或等于 66 的所有最优序列和长度为 N 小于或等于 119 的所有最优偏对称序列。
Dec, 2015