并行树核计算

May, 2023

Parallel Tree Kernel Computation

Souad Taouti, Hadda Cherroun, Djelloul Ziadi

TL;DR本文介绍了一种基于 MapReduce 编程范式实现的并行计算算法，在树内核学习方法中应用广泛的交叉子树核计算的顺序算法基础上，优化计算时间，扩展了算法的适用性。实验表明，并行算法在树语言数据集上的计算效率远高于序列算法。

Abstract

tree kernels are fundamental tools that have been leveraged in many applications, particularly those based on machine learning for Natural Language Processing tasks. In this paper, we devise a →

tree kernels machine learning natural language processing parallel implementation mapreduce paradigm

发现论文，激发创造

基于根加权树自动机的子树核计算新的线性时间算法

本文基于加权树自动机提出了一种新的线性时间算法，用于子树核计算，具有输出敏感性、无序数与有序数适用性以及适用于任何增量树内核学习方法等优点，并在多种合成树语言数据集上进行了实验，结果显示出了该算法超过了现有方法。

Feb, 2023

分布式树核

本研究提出了分布式树核方法以减少树核的时间和空间复杂度，并使用线性复杂度算法计算树的向量，嵌入低维空间，其中核计算是通过点积直接完成的，并证明了分布式树核速度更快，与树核相关，在 2 个自然语言处理任务中获得了具有统计学意义的类似性能。

Jun, 2012

基于树模式的分子图核函数

本研究提出了一种控制子树用于表示图形特征的复杂性的新核函数，并在分类有毒和非有毒分子方面使用支持向量机进行了实验验证。

Sep, 2006

并行算法与神经执行对齐

神经算法推理器是并行处理器，教给它们顺序算法与其本质相悖，导致他们的大部分计算无效。与之相对，平行算法可以充分利用它们的计算能力，因此执行所需的层数较少。这大大减少了训练时间，比较了在 CLRS 框架上搜索、排序和查找强连通分量的平行实现与顺序实现，观察到这一点。此外，平行版本在大多数情况下实现了明显更好的预测性能。

Jul, 2023

树形方法在并行层次分类中的应用

提出一种基于张量运算在硬件加速器上进行高效分层分类的方法，通过将给定语义树节点上的分类得分和标签批次转换为其沿着树向下的所有祖先路径上得分和标签，从而将所有标签转换为其所有祖先路径上的标签，其测试结果为在包含 20 级深度的 117,659 个分类的 WordNet 3.0 的树上，仅占用固定的 0.04GB 内存，计算量很小。

Sep, 2022

决策树的高效通信并行算法

本研究提出了一种名为 PV-Tree 的算法，它通过本地和全局投票来实现决策树的并行训练，实现了低通信成本和良好的扩展性，同时在精度和效率之间取得了良好的平衡。

Nov, 2016

用于顺序数据的核函数

该论文提出了一种基于 signature 特征的核学习框架，旨在处理任何类型的序列化数据，如时间序列、图形序列或字符串。该方法可将任何静态核转换为 “序列化” 版本，并且能够高效计算离散序列的顺序核，并在采样意义下逼近连续动量形式，是处理时间序列等序列化数据的一种有前途的方法。

Jan, 2016

决策树上的单个 MCMC 链并行化

本研究提出一种方法，通过多核处理减少时间来实现在笔记本电脑上并行化单个 MCMC 决策树链，同时结果与常规串行实现相同。同时计算了在多处理器体系结构上利用该方法可以获得的理论和实际运行时间的降低，并表明该方法可以实现快 18 倍的运行时间。

Jul, 2022

大规模机器学习的加速并行优化方法

结合并行化和 Nesterov 加速技术，设计了更高效的算法，用于高维数据的 L1 正则化损失函数，包括优化 BOOM 和提高 Shotgun 的收敛速度。

Nov, 2014

Parallel Streaming Signature EM-tree: 面向 Web 规模应用的聚类算法

本研究提出了一种可伸缩的聚类算法，使用 EM-tree 算法在单个中型计算机上对数千亿个网页进行聚类，并在 ClueWeb09 和 ClueWeb12 上应用该算法，将 500 到 700 万个网页聚类成 50-70 万个聚类，进而提高了聚类质量的评价。

May, 2015