在流式和大规模并行模型中找到决策树分裂

Mar, 2024

Finding Decision Tree Splits in Streaming and Massively Parallel Models

Huy Pham, Hoang Ta, Hoa T. Vu

TL;DR本研究提供了数据流算法，以计算决策树学习中的最佳分割点，从而将数据分为两组，使得均方误差（对于回归）或误分类率（对于分类）最小化。这些算法利用亚线性空间和少量遍数解决这些问题，并可扩展到大规模并行计算模型。

Abstract

In this work, we provide data stream algorithms that compute optimal splits in decision tree learning. In particular, given a data stream

发现论文，激发创造

该论文提出了一种算法，该算法能够基于全局目标同时优化决策树的所有级别的分裂函数和叶参数，使用随机梯度下降进行优化，实验结果表明，该算法相比贪心算法在分类任务的表现优秀。

Nov, 2015

决策树在可解释的机器学习中是重要的预测模型，本文介绍了一种新的蒙特卡洛树搜索算法 (TSDT)，在在线环境中通过汤普森抽样来产生最优的决策树，并经过实验证明该算法在几个基准测试中表现优于现有算法，并具有适用于在线环境的实际优势。

Apr, 2024

通过提出一种决策树优化框架，解决了当前领域中两个开放性问题：不平衡数据处理和连续变量完全优化。此外，我们还介绍了一种可扩展的算法，可以在存在连续变量的情况下产生可证明的最优结果，并相对于现有技术将决策树构建速度提高了数个数量级。

Jun, 2020

论文提出了不同隐私性水平的 k-means 和 k-median 流式聚类算法，采用核心集算法作为黑盒子并使用多项式空间达到恒定乘性错误和多项式加性错误。

Jul, 2023

我们建立了基于分解的可扩展核岭回归方法的最优收敛速率。该方法通过将大小为 N 的数据集随机分为 m 个大小相等的子集，为每个子集计算独立的核岭回归估计器，然后将局部解的平均值得到全局预测器，从而在计算时间上实现了大幅度的减少。

May, 2013

提出了两种新算法以及相应的下限，适用于树集合，展示了决策树和树集合分类训练数据集所需的切割数相比，随着树的数量增加，集合所需的切割数可能会指数级下降。

Jun, 2023

通过子模最大化算法，我们设计了一个通用的、灵活的核心选择例程，可在使用最少内存的情况下从数据流中提取最有价值的子集，并在 ImageNet 和 MNIST 的学习任务中表现出了优于随机选择的性能

Jan, 2022

介绍一种名为 $Des$-$q$ 的新型量子算法，用于构建和重新训练用于回归和二分类任务的决策树，并通过开发高效的量子监督聚类方法实现聚类分割。该算法在训练样本数量的对数时间复杂度范围内显著减少了重新训练决策树所需的时间，同时展示了与现有决策树相似的性能并加快了定期树的重新训练。

Sep, 2023

本文提出了 OLD^3S 框架，实现在线学习的高效处理，针对在不断更新的特征空间上进行的数据流的学习问题。通过建立新旧特征空间之间的关系，发现一个共享的潜在子空间以总结旧和新特征空间的信息，构建中间特征映射关系，从而将模型容量作为可学习的语义，以在线方式在模型深度和参数之间达到最优平衡。

Apr, 2022

本文在数据流中对二分图聚类和布尔矩阵分解问题进行了研究，提出一种使用亚线性空间复杂度，在数据流遍历一遍后能够恢复右部聚类的算法，并且在第二次遍历中能够恢复左部聚类，同时还能够扩展该算法来解决布尔矩阵分解问题。

Dec, 2020