表格数据：关注力是您所需的全部吗？

Feb, 2024

表格数据：关注力是您所需的全部吗？

Tabular Data: Is Attention All You Need?

Guri Zabërgja, Arlind Kadra, Josif Grabocka

TL;DR通过对大规模的实证研究，本文发现神经网络在结构化表格数据上与决策树具有竞争力，而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。

Abstract

deep learning has revolutionized the field of AI and led to remarkable achievements in applications involving image and text data. Unfortunately, there is inconclusive evidence on the merits of neural networks fo

deep learning neural networks structured tabular data gradient-boosted decision trees transformer-based architectures

发现论文，激发创造

神经网络何时在表格数据上优于增强树？

该研究分析了在标签数据上使用神经网络（NN）和梯度增强决策树（GBDT）的性能差异，发现针对不同数据集，NN 和 GBDT 的表现各有千秋，需要根据数据集来选择合适的算法并进行超参数调优。

May, 2023

深度神经网络与表格数据：一份调查报告

本文为研究人员和从业人员提供了深度学习方法在表格数据上的最新进展和应用，主要从数据变换、特殊网络架构、正则化模型和数据生成四个方面进行了探讨，并且在 5 个不同的实际数据集上，将传统机器学习方法与 11 种深度学习方法进行了实证比较，结果表明传统机器学习方法在有监督学习任务上仍优于基于深度学习的算法，提示相关研究有点停滞不前。

Oct, 2021

树状模型在表格数据上为何仍然优于深度学习？

通过与传统树模型如 XGBoost 和随机森林的对比，研究发现，对于中等大小数据集（约 10K 个样本），树模型仍然是当前在表格数据上的最佳选择；研究还提出了神经网络在表格数据上建模的若干挑战，并为后续研究提供基准测试数据和计算资源。

Jul, 2022

优化良好的简单神经网络在表格数据集上表现优异

本论文研究在神经网络中，如何利用 13 种正则化技术来优化多层感知机（MLP）在 40 个表格数据集上的性能，并证明了良好正则化的 MLP 可以明显优于最新的神经网络架构和传统机器学习方法。

Jun, 2021

关系学习中的全面关注提升

基于树模型的注意机制结合与 (tabular data) 表格数据在 (gradient boosting) 梯度提升训练环境中学习，被证明在多个领域与包含树模型和神经网络模型的现有技术相比具有竞争力。

Feb, 2024

深度学习在表格数据上的研究

通过一个全面的基准测试，本文研究了深度表格方法和基于树的方法在各种任务类型、大小分布和领域中的性能排名以及影响深度表格方法成功的关键因素，并提取了对预测准确性起决定性作用的元特征。这些研究将进一步促进表格数据的研究。

Jul, 2024

重访针对表格数据的深度学习模型

本研究对表格数据的深度学习架构进行概述，提出了两种简单而强大的基准深度架构，并发现 Transformer 架构对于表格数据的性能最优。

Jun, 2021

表格数据：深度学习不是你所需要的全部

比较了深度学习模型和 XGBoost 模型在表格数据上的性能和调整，结果表明 XGBoost 模型在所涉及的数据集上表现更好并需要更少的调整。

Jun, 2021

基于图神经网络的表格数据深度学习上下文嵌入

本文提出了一种新型深度学习模型，使用图神经网络（GNN）—— 特别是交互网络（IN）进行情境嵌入，以应对以表格形式存在的异构数据和特征。该模型在五个公共数据集上的深度学习基准测试中表现优异，优于最近发表的研究结果，并在与增强树解决方案的比较中也取得了竞争结果。

Mar, 2023

用表格转换器对多元时间序列进行建模

本研究利用深度学习算法构建神经网络模型，对具有层级结构的表格时间序列进行表示学习，提供了一种类似于 BERT 的预训练模型以及类似于 GPT 的合成模型，并在信用卡诈骗检测和空气污染浓度预测两个领域应用验证了模型的效果。

Nov, 2020