优化良好的简单神经网络在表格数据集上表现优异

Jun, 2021

优化良好的简单神经网络在表格数据集上表现优异

Well-tuned Simple Nets Excel on Tabular Datasets

Arlind Kadra, Marius Lindauer, Frank Hutter, Josif Grabocka

TL;DR本论文研究在神经网络中，如何利用 13 种正则化技术来优化多层感知机（MLP）在 40 个表格数据集上的性能，并证明了良好正则化的 MLP 可以明显优于最新的神经网络架构和传统机器学习方法。

Abstract

tabular datasets are the last "unconquered castle" for deep learning, with traditional ml methods like Gradient-Boosted Decision Trees sti

tabular datasets deep learning regularization techniques multilayer perceptron traditional ml methods

发现论文，激发创造

表格数据：关注力是您所需的全部吗？

通过对大规模的实证研究，本文发现神经网络在结构化表格数据上与决策树具有竞争力，而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。

Feb, 2024

正则化学习网络：表格数据的深度学习

提出了一种名为 Regularization Learning Networks (RLNs) 的方法，通过引入一个有效的超参数调整方案来优化 DNN 在 tabular 数据集上的性能，获得了与 GBT 相当的性能。同时，RLNs 还产生了极度稀疏的网络，消除了高达 98% 的网络边缘和 82％的输入特征，提供了更可解释的模型，并揭示了网络分配给不同输入的重要性。

May, 2018

树状模型在表格数据上为何仍然优于深度学习？

通过与传统树模型如 XGBoost 和随机森林的对比，研究发现，对于中等大小数据集（约 10K 个样本），树模型仍然是当前在表格数据上的最佳选择；研究还提出了神经网络在表格数据上建模的若干挑战，并为后续研究提供基准测试数据和计算资源。

Jul, 2022

深度神经网络与表格数据：一份调查报告

本文为研究人员和从业人员提供了深度学习方法在表格数据上的最新进展和应用，主要从数据变换、特殊网络架构、正则化模型和数据生成四个方面进行了探讨，并且在 5 个不同的实际数据集上，将传统机器学习方法与 11 种深度学习方法进行了实证比较，结果表明传统机器学习方法在有监督学习任务上仍优于基于深度学习的算法，提示相关研究有点停滞不前。

Oct, 2021

关系学习中的全面关注提升

基于树模型的注意机制结合与 (tabular data) 表格数据在 (gradient boosting) 梯度提升训练环境中学习，被证明在多个领域与包含树模型和神经网络模型的现有技术相比具有竞争力。

Feb, 2024

神经网络何时在表格数据上优于增强树？

该研究分析了在标签数据上使用神经网络（NN）和梯度增强决策树（GBDT）的性能差异，发现针对不同数据集，NN 和 GBDT 的表现各有千秋，需要根据数据集来选择合适的算法并进行超参数调优。

May, 2023

表格数据：深度学习不是你所需要的全部

比较了深度学习模型和 XGBoost 模型在表格数据上的性能和调整，结果表明 XGBoost 模型在所涉及的数据集上表现更好并需要更少的调整。

Jun, 2021

基于表格数据的神经网络的初始化模式

现代应用程序对异构表格数据的回归和分类仍然是一个具有挑战性的任务，本文提出了一种使用二项式初始化的神经网络来有效处理表格数据的方法，同时实现了联合集成训练，并在多个公共数据集上的实验证明了其相较于其他基于神经网络的方法具有改进的性能。

Nov, 2023

HyperTab: 基于超网络的小型表格数据深度学习方案

HyperTab 是一种基于超网络的方法，用于在表格数据集上处理小样本问题，将随机森林和神经网络的优势相结合，同时生成神经网络集合，每个目标模型专门处理数据的特定低维视图。

Apr, 2023

深度学习在表格数据上的研究

通过一个全面的基准测试，本文研究了深度表格方法和基于树的方法在各种任务类型、大小分布和领域中的性能排名以及影响深度表格方法成功的关键因素，并提取了对预测准确性起决定性作用的元特征。这些研究将进一步促进表格数据的研究。

Jul, 2024