- 大规模双层优化的内存高效梯度展开
本文介绍了 $(ext {FG})^2 ext {U}$,一种解决大规模双层优化问题的新方法,该方法通过无偏随机近似元梯度来提供更准确的梯度估计,并且支持并行计算以提高计算效率。$(ext {FG})^2 ext {U}$ 在不同阶段的训练 - OptEx:利用近似并行化迭代加速一阶优化
我们提出了一种名为 OptEx 的方法,通过利用并行计算来提高 FOO 的效率,使用核化梯度估计来进行迭代预测,从而实现了迭代的并行化,并证明了核化梯度估计的可靠性和基于 SGD 的 OptEx 的迭代复杂度,同时通过大量实证研究验证了 O - MPIrigen: 基于领域特定语言模型的 MPI 代码生成
MPIrigen 是一个通过领域特定微调为并行计算代码生成优化语言模型的定制解决方案,能够准确生成 0.8 的 MPI 函数位置和功能预测,并且超过 0.9 的参数预测准确率,为自动并行化工具的新一代铺平了道路。
- 通过层级角色差异来诱导端到端训练中的信息瓶颈:与逐层训练进行比较的分析
通过与逐层训练进行比较,本文重新考虑为什么端到端训练能够表现出卓越性能,并分析了中间表示的信息平面动态,揭示了端到端训练在不同层中展示不同信息动态的能力,以及表明层间的合作相互作用需要被考虑在深度学习的信息瓶颈分析中。
- 使用并行随机优化几乎免费实现高置信度推断
通过利用少量的独立多轮运行获得分布信息并构建基于 t 分布的置信区间,在保证高置信水平的前提下,提出了一种快速计算收敛到名义水平置信区间的新型推断方法,几乎不需要额外的计算和内存开销。
- 通过交换计算获得不确定性加速广义线性模型
我们介绍了一系列迭代方法,用于计算大规模 Bayesian 广义线性模型(GLMs)中的近似误差,并通过并行计算、信息压缩来提高训练速度并减少计算量。
- 高阶张量多切片聚类的并行计算
使用机器学习方法,如聚类方法来处理海量数据集,我们设计了并行算法来计算三阶张量的多切片聚类(MSC)。该方法基于对张量切片的谱分析,并且可独立于每个张量模式工作,适用于分布式内存系统的并行编程方式,并且通过比较证明并行算法优于顺序计算,能够 - CAGRA: 高并行图构建和 GPU 上的近似最近邻搜索
通过使用现代硬件的高性能能力,我们的方法在构建接近图时,构建时间比 HNSW 快 2.2~27 倍;在大批量查询吞吐量方面,在 90% 至 95% 召回范围内,我们的方法比 HNSW 快 33~77 倍,并且比 GPU 的最新实现快 3.8 - 通过学习增强的 SampleSort——LearnedSort: 分析和并行化
本文分析和并行学习排序算法 LearnedSort,结合了累积分布函数和 SampleSort 方法,在合成和现实世界数据集上显示了较 IPS4o 和其他排序算法更好的并行性能。
- 利用分治原则提高机器学习推理性能
本文探讨了在 CPU 上部署机器学习模型的缩放问题,提出了一种基于分而治之原则的简单而有效的方法来解决这个实际重要的问题,在 OnnxRuntime 框架中实施并用几个用例来评估其有效性,包括用于 OCR 和 NLP 的著名模型。
- AAAI通过 Lovász's 局部引理和马尔可夫随机场采样学习组合结构
本论文提出了一种基于神经网络的生成模型 Nelson,采用 Lovász Local Lemma,能够在满足组合约束条件的情况下生成样本。同时,本论文还提出了一种完全可微分的基于对比分歧的学习框架,称为 Nelson-CD,它利用了 GPU - MSRL: 数据流片段下的分布式强化学习
MindSpore Reinforcement Learning (MSRL) is a distributed system that supports parallel computing on GPU clusters for Rei - 决策树上的单个 MCMC 链并行化
本研究提出一种方法,通过多核处理减少时间来实现在笔记本电脑上并行化单个 MCMC 决策树链,同时结果与常规串行实现相同。同时计算了在多处理器体系结构上利用该方法可以获得的理论和实际运行时间的降低,并表明该方法可以实现快 18 倍的运行时间。
- 使用积极解码的 Seq2seq 生成无损加速
本文提出了一种名为 Aggressive Decoding 的解码算法,通过创新性的 Aggressive Decoding 和 Verification 的协同合作来实现加速 seq2seq 生成模型解码的过程,并在多个 seq2seq - 并行数值方法精度、收敛性和可复现性的高效求和算法
我们介绍了一种新的并行算法,该算法通过优先计算相同指数的数字来减轻浮点算数中误差问题,并通过精度、收敛性和可重现性等性质的广泛分析来验证其有效性。我们还选择了 Simpson,Jacobi,LU 因数分解和迭代幂法等代表性数值方法来展示算法 - 基于代理的分布式群体优化算法在计算代价昂贵模型中的应用
本论文旨在在并行计算结构中实现基于代理的适应度评估,在复杂的地质科学景观进化模型上实现优化解决方案时间的缩短,同时保持优化准确性。
- Colossal-AI: 大规模并行训练的统一深度学习系统
该研究介绍了 Colossal-AI 系统,该系统可以将基于 Transformer 的深度学习模型训练从单个 GPU 扩展到分布式环境,实现了多种并行训练方法,提高了训练速度。
- ICML通过并行非线性方程求解加速前馈计算
本文章提出了使用 Jacobi 或 Gauss-Seidel 定点迭代方法来并行化前馈计算任务,以实现在神经网络评估和自回归模型采样等机器学习任务中的加速。实验表明,该方法在加速反向传播和评估 DenseNets 和 autoregress - 一种直接的 $ ilde {O}(1/ε)$ 迭代并行算法,用于最优输运
本文介绍一种基于原始对偶外推方法的平行一阶算法,通过计算最优传输(包括基于 Wasserstein 距离的计算)来解决机器学习和统计学中常见的问题,具有较强的实际应用价值,并实验验证了优异的性能。
- 异步批次贝叶斯优化,带有改进的本地惩罚
本文提出了一种基于异步并行贝叶斯优化的方法 PLAyBOOK,可以使用并行计算更高效地进行超参数调优,并通过实证研究表明,异步并行 BO 往往在时钟时间和函数评估次数方面优于同步批量 BO。