本文为研究人员和从业人员提供了深度学习方法在表格数据上的最新进展和应用,主要从数据变换、特殊网络架构、正则化模型和数据生成四个方面进行了探讨,并且在 5 个不同的实际数据集上,将传统机器学习方法与 11 种深度学习方法进行了实证比较,结果表明传统机器学习方法在有监督学习任务上仍优于基于深度学习的算法,提示相关研究有点停滞不前。
Oct, 2021
通过对大规模的实证研究,本文发现神经网络在结构化表格数据上与决策树具有竞争力,而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。
Feb, 2024
通过一个全面的基准测试,本文研究了深度表格方法和基于树的方法在各种任务类型、大小分布和领域中的性能排名以及影响深度表格方法成功的关键因素,并提取了对预测准确性起决定性作用的元特征。这些研究将进一步促进表格数据的研究。
Jul, 2024
通过与传统树模型如 XGBoost 和随机森林的对比,研究发现,对于中等大小数据集(约 10K 个样本),树模型仍然是当前在表格数据上的最佳选择;研究还提出了神经网络在表格数据上建模的若干挑战,并为后续研究提供基准测试数据和计算资源。
Jul, 2022
本研究利用深度学习算法构建神经网络模型,对具有层级结构的表格时间序列进行表示学习,提供了一种类似于 BERT 的预训练模型以及类似于 GPT 的合成模型,并在信用卡诈骗检测和空气污染浓度预测两个领域应用验证了模型的效果。
Nov, 2020
通过在稀疏的表格数据中利用拓扑约束网络表示结构,我们提出了一种新颖的深度学习架构,利用卷积提取空间信息,并通过网络拓扑的有限概念来确保数据导向、可解释性和可扩展性,在 18 个基准数据集上测试表明,我们的方法在这些具有挑战性的数据集上达到了最先进的性能。
Aug, 2023
通过逐步增加一个与诸多表格检索模型类似的注意力检索组件,TabR 模型在一组公开基准测试中表现出最佳平均性能,成为几个数据集上的最新技术标准,甚至在最近提出的 “GBDT 友好” 基准测试中超越了 GBDT 模型。
Jul, 2023
比较了深度学习模型和 XGBoost 模型在表格数据上的性能和调整,结果表明 XGBoost 模型在所涉及的数据集上表现更好并需要更少的调整。
Jun, 2021
通过对 28 个表格数据集的广泛评估,本文介绍了在传统深度学习与机器学习基线上,在各个表格数据集上实现卓越性能的注意力和对比学习方法,以促进该领域的进一步发展。
Jan, 2024
构建更好的零样本和少样本生成能力的生成式表格基础模型 LaTable 在有限样本的条件下,在实例内分布生成方面胜过基线,并在生成超出分布的数据集时表现更好。
Jun, 2024