通过对大规模的实证研究,本文发现神经网络在结构化表格数据上与决策树具有竞争力,而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。
Feb, 2024
提出了一种名为 Regularization Learning Networks (RLNs) 的方法,通过引入一个有效的超参数调整方案来优化 DNN 在 tabular 数据集上的性能,获得了与 GBT 相当的性能。同时,RLNs 还产生了极度稀疏的网络,消除了高达 98% 的网络边缘和 82%的输入特征,提供了更可解释的模型,并揭示了网络分配给不同输入的重要性。
May, 2018
通过与传统树模型如 XGBoost 和随机森林的对比,研究发现,对于中等大小数据集(约 10K 个样本),树模型仍然是当前在表格数据上的最佳选择;研究还提出了神经网络在表格数据上建模的若干挑战,并为后续研究提供基准测试数据和计算资源。
Jul, 2022
本文为研究人员和从业人员提供了深度学习方法在表格数据上的最新进展和应用,主要从数据变换、特殊网络架构、正则化模型和数据生成四个方面进行了探讨,并且在 5 个不同的实际数据集上,将传统机器学习方法与 11 种深度学习方法进行了实证比较,结果表明传统机器学习方法在有监督学习任务上仍优于基于深度学习的算法,提示相关研究有点停滞不前。
Oct, 2021
基于树模型的注意机制结合与 (tabular data) 表格数据在 (gradient boosting) 梯度提升训练环境中学习,被证明在多个领域与包含树模型和神经网络模型的现有技术相比具有竞争力。
该研究分析了在标签数据上使用神经网络(NN)和梯度增强决策树(GBDT)的性能差异,发现针对不同数据集,NN 和 GBDT 的表现各有千秋,需要根据数据集来选择合适的算法并进行超参数调优。
May, 2023
比较了深度学习模型和 XGBoost 模型在表格数据上的性能和调整,结果表明 XGBoost 模型在所涉及的数据集上表现更好并需要更少的调整。
Jun, 2021
现代应用程序对异构表格数据的回归和分类仍然是一个具有挑战性的任务,本文提出了一种使用二项式初始化的神经网络来有效处理表格数据的方法,同时实现了联合集成训练,并在多个公共数据集上的实验证明了其相较于其他基于神经网络的方法具有改进的性能。
Nov, 2023
HyperTab 是一种基于超网络的方法,用于在表格数据集上处理小样本问题,将随机森林和神经网络的优势相结合,同时生成神经网络集合,每个目标模型专门处理数据的特定低维视图。
Apr, 2023
通过一个全面的基准测试,本文研究了深度表格方法和基于树的方法在各种任务类型、大小分布和领域中的性能排名以及影响深度表格方法成功的关键因素,并提取了对预测准确性起决定性作用的元特征。这些研究将进一步促进表格数据的研究。
Jul, 2024