针对多样化表格数据集的机器学习和深度学习综合基准
通过与传统树模型如XGBoost和随机森林的对比,研究发现,对于中等大小数据集(约10K个样本),树模型仍然是当前在表格数据上的最佳选择;研究还提出了神经网络在表格数据上建模的若干挑战,并为后续研究提供基准测试数据和计算资源。
Jul, 2022
通过使用真实数据集和多种生成多余特征的方法,我们构建了一个具有挑战性的特征选择基准,对包括Transformer在内的下游神经网络进行评估,同时提出了一种基于输入梯度的神经网络Lasso变体,相较于经典的特征选择方法在选择受损或二阶特征的挑战性问题上表现出更好的性能。
Nov, 2023
通过对28个表格数据集的广泛评估,本文介绍了在传统深度学习与机器学习基线上,在各个表格数据集上实现卓越性能的注意力和对比学习方法,以促进该领域的进一步发展。
Jan, 2024
通过在16个数据集上进行全面评估,我们研究了数据集特定的超参数、特征编码和架构调整对于五个最新模型家族在表格数据生成方面的影响。我们提出了一个减少的搜索空间以便进行快速优化,实现了几乎相同性能但显著降低成本。我们的评估表明,对于大多数模型而言,大规模数据集特定调优相比原始配置极大提高了性能。此外,我们证实扩散模型在表格数据上普遍优于其他模型。然而,当所有模型的调优和训练过程都限制在相同的GPU预算时,这种优势并不明显。
Jun, 2024
本文研究了标准机器学习中现成的表格式基准数据集存在的问题,并引入了TabReD数据集以填补学术基准数据集的不足之处,以此评估不同ML模型在时间演化的数据环境中的表现。结果表明,基于时间的数据划分与学术基准数据集中的随机划分会导致不同的方法排名,MLP类的架构和GBDT模型在TabReD数据集上展现出最佳结果,而更复杂的深度学习模型还需进一步证明其有效性。
Jun, 2024
通过一个全面的基准测试,本文研究了深度表格方法和基于树的方法在各种任务类型、大小分布和领域中的性能排名以及影响深度表格方法成功的关键因素,并提取了对预测准确性起决定性作用的元特征。这些研究将进一步促进表格数据的研究。
Jul, 2024
通过从Kaggle竞赛中选择10个相关数据集,实现专家级预处理流程,并进行实验以量化模型选择、超参数优化、特征工程和测试时间适应的影响,我们的主要发现是:1. 数据集特定的特征工程后,模型排名发生了显著变化,性能差异减小,模型选择的重要性降低。2. 最新模型虽然取得了可衡量的进步,但仍然极大受益于手动特征工程,这对基于树的模型和神经网络都适用。3. 虽然通常认为表格数据是静态的,但样本经常随着时间的推移而收集,适应分布的变化即使在所谓的静态数据中也很重要。这些观点表明研究应关注数据为中心的视角,承认表格数据需要特征工程,并且通常具有时间特性。
Jul, 2024
本研究针对表格深度学习中对抗攻击的不足进行了探讨,特别是缺乏标准化基准的问题。我们提出了TabularBench,这是首个全面评估表格深度学习分类模型鲁棒性的基准测试,揭示了针对表格模型的有效攻击方法。该工作为金融、医疗和安全领域提供了超过200种模型的基准数据,并提供了可以促进新防御机制设计的关键见解。
Aug, 2024
本研究针对当前表格基准测试未考虑数据稀缺应用的问题,提出了PMLBmini,一个包含44个样本量≤500的二分类数据集的表格基准套件。研究分析显示,现有的自动化机器学习和深度学习方法在低数据环境中往往难以超越简单的逻辑回归基线,但也识别了在特定场景中合理应用这些方法的可能性。
Sep, 2024