- ICML使用算法回溯学习决策树和随机森林
该论文提出了一种新算法,用于学习准确的基于树的模型,同时确保存在补救措施行动。
- 超树预测
本文介绍了超树的概念,并提供了将基于树的模型应用于时间序列数据的新方向。与直接预测时间序列的传统决策树应用不同,超树旨在学习目标时间序列模型的参数。我们的框架利用了增强树的基于梯度的性质,使我们能够将超网络的概念扩展到超树,并对树模型引入时 - 基于直方图的最小方差抽样的联邦 XGBoost 用于联邦表格数据
在这篇研究论文中,我们评估了一种使用 Minimal Variance Sampling (MVS) 的基于直方图的联邦 XGBoost 模型,证明了我们的模型在联邦环境中能够通过提高准确性和回归误差来改进性能,并在一组新的联邦表格数据集上 - 基于表格数据的联邦学习基准测试:比较基于树模型和神经网络的方法
本研究对水平联邦学习中的树模型和深度神经网络进行了对比,结果显示当前联邦增强的树模型在不同数据分区下表现优于联邦深度神经网络,并且联邦 XGBoost 模型表现最佳。此外,即使增加客户端数量,联邦树模型的性能仍优于联邦参数化模型。
- BUFF:基于提升决策树的超快速流匹配
基于树模型优于深度学习模型在处理表格数据任务方面的表现,我们采用条件流匹配生成模型并使用不同技术融合了 Gradient Boosted Trees 的使用,通过在多个公共数据集上进行多个分析任务的评估,展示了大多数高级仿真任务的训练和推理 - C-XGBoost:一种用于因果效应估计的树提升模型
提出了一种名为 C-XGBoost 的新因果推断模型,用于预测潜在结果,并使用树模型处理表格数据以及神经网络模型学习表征,同时具备 XGBoost 模型的优势,如处理缺失值和避免过拟合 / 偏差的能力。实验结果证明了该方法的有效性。
- 关系学习中的全面关注提升
基于树模型的注意机制结合与 (tabular data) 表格数据在 (gradient boosting) 梯度提升训练环境中学习,被证明在多个领域与包含树模型和神经网络模型的现有技术相比具有竞争力。
- 可解释的自适应基于树的模型选择时间序列预测
我们提出了一种新颖的方法,利用 TreeSHAP 解释性方法在线选择基于树的模型,并在时间序列预测任务中进行运用,以解决过拟合问题和模型选择的困境。实证研究表明,我们的方法在多个真实数据集上取得了与现有方法和基线方法相当甚至更好的结果。
- 虚假数据对电化学中的机器学习模型的影响
选择适合处理噪声数据的机器学习模型以及建立叠加模型是否确实对原本对噪声敏感的弱模型提供鲁棒性。线性模型对噪声处理良好,但在预测准确性方面存在问题;基于树模型对噪声处理能力较差,但可以提供更高的预测准确性;叠加模型既具备高准确性又能有效处理噪 - 优化检索机制的表格深度学习微调
通过融合检索机制、预训练和迁移学习方案,可以显著提升表格深度学习领域的性能。
- 消除基于树的垂直联邦学习中的标签泄漏
垂直联邦学习中存在的以树模型为基础的标签推断攻击 (ID2Graph) 对 Random Forest 和 XGBoost 等树模型存在显著风险,而 ID-LMID 机制能够有效降低标签泄露。
- 提高决策树解释的有效性
本文介绍了一种基于树的模型,在最小化每个叶子节点的最大误分类错误的情况下,将深度较低的树挂起,并从其每个叶子节点引入树模型,提高了整体的统计性能和解释能力。
- ICMLTrompt:面向表格数据的更好深度神经网络探索
本文提出基于 Trompt 技术的神经网络体系结构,其中包括内在信息和样本变异学习两个方面,通过基准测试的结果显示 Trompt 的性能优于目前最先进的深度学习神经网络,且与基于树的模型相当。
- X-TIME: 用于加速基于 CAMs 的表格数据机器学习的内存引擎
在数据科学领域,结构化或表格形式的数据是最常见的格式。然而,在机器学习模型从表格中学习时,相比于简单的方法,深度学习模型的准确性要低得多。本文提出一种模拟 - 数字一体化架构,通过实现全新的高精度模拟内容寻址内存和可编程片上网络,实现了一种 - 基于全同态加密的树型隐私推断
本文介绍了使用 Fully Homomorphic Encryption 应用于基于树的数据模型,通过 Concrete-ML 库在加密选项卡 ular 数据上得到最先进的解决方案,此方法适用于决策树,随机森林和梯度提升树等广泛使用的基于树 - 基于实例的 AXIL 加权梯度提升机预测解释
研究表明,线性模型和基于树的模型的回归预测可以表示为训练数据中目标实例的线性组合,并且使用的权重是实例重要性的度量,这有助于使机器学习预测更可解释和可解释性。
- 树状模型在表格数据上为何仍然优于深度学习?
通过与传统树模型如 XGBoost 和随机森林的对比,研究发现,对于中等大小数据集(约 10K 个样本),树模型仍然是当前在表格数据上的最佳选择;研究还提出了神经网络在表格数据上建模的若干挑战,并为后续研究提供基准测试数据和计算资源。
- 决策桩集合的 (去) 随机平滑化
本研究提出了基于确定性平滑的决策桩集成方法,通过动态规划和两种提高保真度的方法,成功地获得了数值和分类特征的确定性鲁棒证明。实验证明,相较于基于树模型的现有技术,我们的方法可以显著提高基于树模型的保真度。
- AAAITransBoost: 一种用于改善金融包容性的增强型树内核转移学习算法
本文提出了一种新的迁移学习算法 TransBoost,该算法兼具基于树的模型和核方法的优点,具有理论保证的高效权重更新机制,能够在高维特征和稀疏数据中快速准确地评估新用户的风险,提高金融机构的包容性和判断客户风险能力。
- 计算复杂度视角下的模型可解释性
本文在探讨不同模型的可解释性时,提出了一种基于计算复杂度理论的原则性可解释性概念,并证明了线性模型和基于树的模型相对于神经网络更可解释,同时通过参数化复杂度分析,提出了浅层神经网络比深层神经网络更容易解释的理论证据。