通过与传统树模型如 XGBoost 和随机森林的对比,研究发现,对于中等大小数据集(约 10K 个样本),树模型仍然是当前在表格数据上的最佳选择;研究还提出了神经网络在表格数据上建模的若干挑战,并为后续研究提供基准测试数据和计算资源。
Jul, 2022
通过对大规模的实证研究,本文发现神经网络在结构化表格数据上与决策树具有竞争力,而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。
Feb, 2024
该研究分析了在标签数据上使用神经网络(NN)和梯度增强决策树(GBDT)的性能差异,发现针对不同数据集,NN 和 GBDT 的表现各有千秋,需要根据数据集来选择合适的算法并进行超参数调优。
May, 2023
通过一个全面的基准测试,本文研究了深度表格方法和基于树的方法在各种任务类型、大小分布和领域中的性能排名以及影响深度表格方法成功的关键因素,并提取了对预测准确性起决定性作用的元特征。这些研究将进一步促进表格数据的研究。
Jul, 2024
本文为研究人员和从业人员提供了深度学习方法在表格数据上的最新进展和应用,主要从数据变换、特殊网络架构、正则化模型和数据生成四个方面进行了探讨,并且在 5 个不同的实际数据集上,将传统机器学习方法与 11 种深度学习方法进行了实证比较,结果表明传统机器学习方法在有监督学习任务上仍优于基于深度学习的算法,提示相关研究有点停滞不前。
Oct, 2021
本论文研究在神经网络中,如何利用 13 种正则化技术来优化多层感知机(MLP)在 40 个表格数据集上的性能,并证明了良好正则化的 MLP 可以明显优于最新的神经网络架构和传统机器学习方法。
Jun, 2021
HyperTab 是一种基于超网络的方法,用于在表格数据集上处理小样本问题,将随机森林和神经网络的优势相结合,同时生成神经网络集合,每个目标模型专门处理数据的特定低维视图。
Apr, 2023
本研究对表格数据的深度学习架构进行概述,提出了两种简单而强大的基准深度架构,并发现 Transformer 架构对于表格数据的性能最优。
本研究论文介绍了一种用于密度建模和表格数据生成的基于树的生成模型,该模型提高了最新提案的建模能力,并提出了一种简化先前方法训练设置并显示提升一致性收敛性的训练算法。通过实验验证了我们方法在缺失数据插补和生成数据与真实数据对比方面的优质结果。
Aug, 2023
本文介绍了一种基于时间序列的深度学习方法及其与传统机器学习方法的比较结果,结果表明,输入变换可以提高传统 GBRT 模型的性能,使其优于所有评估的最新 DNN 模型。
Jan, 2021