重访针对表格数据的深度学习模型

Jun, 2021

重访针对表格数据的深度学习模型

Revisiting Deep Learning Models for Tabular Data

Yury Gorishniy, Ivan Rubachev, Valentin Khrulkov, Artem Babenko

TL;DR本研究对表格数据的深度学习架构进行概述，提出了两种简单而强大的基准深度架构，并发现 Transformer 架构对于表格数据的性能最优。

Abstract

The existing literature on deep learning for tabular data proposes a wide range of novel architectures and reports competitive results on

deep learning tabular data architectures baselines transformer

发现论文，激发创造

深度神经网络与表格数据：一份调查报告

本文为研究人员和从业人员提供了深度学习方法在表格数据上的最新进展和应用，主要从数据变换、特殊网络架构、正则化模型和数据生成四个方面进行了探讨，并且在 5 个不同的实际数据集上，将传统机器学习方法与 11 种深度学习方法进行了实证比较，结果表明传统机器学习方法在有监督学习任务上仍优于基于深度学习的算法，提示相关研究有点停滞不前。

Oct, 2021

表格数据：关注力是您所需的全部吗？

通过对大规模的实证研究，本文发现神经网络在结构化表格数据上与决策树具有竞争力，而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。

Feb, 2024

深度学习在表格数据上的研究

通过一个全面的基准测试，本文研究了深度表格方法和基于树的方法在各种任务类型、大小分布和领域中的性能排名以及影响深度表格方法成功的关键因素，并提取了对预测准确性起决定性作用的元特征。这些研究将进一步促进表格数据的研究。

Jul, 2024

树状模型在表格数据上为何仍然优于深度学习？

通过与传统树模型如 XGBoost 和随机森林的对比，研究发现，对于中等大小数据集（约 10K 个样本），树模型仍然是当前在表格数据上的最佳选择；研究还提出了神经网络在表格数据上建模的若干挑战，并为后续研究提供基准测试数据和计算资源。

Jul, 2022

用表格转换器对多元时间序列进行建模

本研究利用深度学习算法构建神经网络模型，对具有层级结构的表格时间序列进行表示学习，提供了一种类似于 BERT 的预训练模型以及类似于 GPT 的合成模型，并在信用卡诈骗检测和空气污染浓度预测两个领域应用验证了模型的效果。

Nov, 2020

同调卷积神经网络

通过在稀疏的表格数据中利用拓扑约束网络表示结构，我们提出了一种新颖的深度学习架构，利用卷积提取空间信息，并通过网络拓扑的有限概念来确保数据导向、可解释性和可扩展性，在 18 个基准数据集上测试表明，我们的方法在这些具有挑战性的数据集上达到了最先进的性能。

Aug, 2023

TabR: 发掘检索辅助的表格深度学习的能力

通过逐步增加一个与诸多表格检索模型类似的注意力检索组件，TabR 模型在一组公开基准测试中表现出最佳平均性能，成为几个数据集上的最新技术标准，甚至在最近提出的 “GBDT 友好” 基准测试中超越了 GBDT 模型。

Jul, 2023

表格数据：深度学习不是你所需要的全部

比较了深度学习模型和 XGBoost 模型在表格数据上的性能和调整，结果表明 XGBoost 模型在所涉及的数据集上表现更好并需要更少的调整。

Jun, 2021

表格数据的注意力对比学习 - 数据中心的基准测试

通过对 28 个表格数据集的广泛评估，本文介绍了在传统深度学习与机器学习基线上，在各个表格数据集上实现卓越性能的注意力和对比学习方法，以促进该领域的进一步发展。

Jan, 2024

LaTable: 大型表格模型的探索

构建更好的零样本和少样本生成能力的生成式表格基础模型 LaTable 在有限样本的条件下，在实例内分布生成方面胜过基线，并在生成超出分布的数据集时表现更好。

Jun, 2024