本文为研究人员和从业人员提供了深度学习方法在表格数据上的最新进展和应用,主要从数据变换、特殊网络架构、正则化模型和数据生成四个方面进行了探讨,并且在 5 个不同的实际数据集上,将传统机器学习方法与 11 种深度学习方法进行了实证比较,结果表明传统机器学习方法在有监督学习任务上仍优于基于深度学习的算法,提示相关研究有点停滞不前。
Oct, 2021
本论文研究在神经网络中,如何利用 13 种正则化技术来优化多层感知机(MLP)在 40 个表格数据集上的性能,并证明了良好正则化的 MLP 可以明显优于最新的神经网络架构和传统机器学习方法。
Jun, 2021
通过对大规模的实证研究,本文发现神经网络在结构化表格数据上与决策树具有竞争力,而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。
Feb, 2024
HyperTab 是一种基于超网络的方法,用于在表格数据集上处理小样本问题,将随机森林和神经网络的优势相结合,同时生成神经网络集合,每个目标模型专门处理数据的特定低维视图。
Apr, 2023
本研究利用深度学习算法构建神经网络模型,对具有层级结构的表格时间序列进行表示学习,提供了一种类似于 BERT 的预训练模型以及类似于 GPT 的合成模型,并在信用卡诈骗检测和空气污染浓度预测两个领域应用验证了模型的效果。
Nov, 2020
该研究分析了在标签数据上使用神经网络(NN)和梯度增强决策树(GBDT)的性能差异,发现针对不同数据集,NN 和 GBDT 的表现各有千秋,需要根据数据集来选择合适的算法并进行超参数调优。
May, 2023
本文提出了一种新的深度学习架构 Neural Oblivious Decision Ensembles(NODE)用于处理表格数据,并且与目前主要的 GBDT 方案相比,在大量的数据集上展示了超越竞争方案的表现。
Sep, 2019
通过与传统树模型如 XGBoost 和随机森林的对比,研究发现,对于中等大小数据集(约 10K 个样本),树模型仍然是当前在表格数据上的最佳选择;研究还提出了神经网络在表格数据上建模的若干挑战,并为后续研究提供基准测试数据和计算资源。
Jul, 2022
本文提出了一种基于深度学习的表格数据处理模型 SAINT,该模型利用注意力机制同时考虑行和列信息,并使用先进的嵌入方法以及自监督预训练方法,实现了在有限标签数据下取得了与传统机器学习方法(包括 XGBoost、CatBoost 和 LightGBM)相当的准确率。
通过树正则化表征,我们提出了一种在表格数据中实现树状神经网络的方法,该方法不仅在与树状模型的性能差异方面收敛,而且在与先进神经网络模型的性能相比较时表现出色,具有更好的鲁棒性,并且可以作为独立编码器轻松扩展和普适于表格数据模态。
Mar, 2024