应用表格转换器挑战 Booking.com 诈骗检测中的梯度提升决策树
本文探讨了采用 Gradient Boosted Decision Trees 作为分类器的自然语言推断(NLI)任务方法,介绍了 FreeGBDT 方法,该方法可以在不增加神经网络的计算量的情况下,提高对特征的分类精度,实验证明 FreeGBDT 对于多个 NLI 数据集的 RoBERTa-large 基线模型都有稳定的提升。
May, 2021
该研究分析了在标签数据上使用神经网络(NN)和梯度增强决策树(GBDT)的性能差异,发现针对不同数据集,NN 和 GBDT 的表现各有千秋,需要根据数据集来选择合适的算法并进行超参数调优。
May, 2023
通过对大规模的实证研究,本文发现神经网络在结构化表格数据上与决策树具有竞争力,而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。
Feb, 2024
本研究利用深度学习算法构建神经网络模型,对具有层级结构的表格时间序列进行表示学习,提供了一种类似于 BERT 的预训练模型以及类似于 GPT 的合成模型,并在信用卡诈骗检测和空气污染浓度预测两个领域应用验证了模型的效果。
Nov, 2020
使用自监督学习的 TabTransformer 模型,通过描述一种新颖的表格数据训练方法,提高了对分类和数值特征的建模能力。通过对比传统机器学习模型和自监督学习方法,研究结果显示 TabTransformer 在表格数据上的性能优势。
Jan, 2024
该研究提出了一种新的框架,将 Gradient Boosted Decision Trees (GBDTs) 和 Deep Neural Networks (DNNs) 的优势结合起来,形成一种效率与 GBDTs 相当且具有竞争力的 DNN 算法,以解决在特定表格数据集上选择有效模型的难题。通过组合关键组件,如 GBDT 特征筛选、DNN 架构修剪和反向传播优化器,共同训练一个随机初始化的 MLP 模型,实验证明该方法在具有高度调优的 DNN 和 GBDT 主导的表格基准上表现出竞争力,并且具有紧凑的模型存储和显著降低的训练时间。
Jul, 2024
基于 Transformer 架构和两种形式的随机竞争,我们提出了一种为表格数据特别设计的新型随机深度学习模型,并在广泛使用的公开数据集上验证了其高性能及深度学习在表格数据应用方面的显著进展。
Jul, 2024
该研究论文提出了一种名为转移性表格变压器(TransTab)的新方法,该方法通过将表格中的每个样本(即行)转换为可推广的嵌入向量,然后应用堆叠的变压器进行特征编码,来学习来自多个表格的机器学习模型。该方法探讨了如何在训练和测试期间使用多个具有部分重叠列的表格进行机器学习模型的预测,并对预训练模型的性能进行了分析和比较。
May, 2022
介绍了一种创新的自回归模型,利用了 Generative Pretrained Transformer (GPT) 架构,专为支付系统中的欺诈检测而设计。我们的方法创新性地解决了令牌爆炸问题,并通过时间和上下文分析重构行为序列,提供了对交易行为的细致理解。利用无监督预训练,我们的模型在特征表示方面表现突出,无需有标签的数据。此外,我们整合了一种差分卷积方法来增强异常检测,提高了中国最大在线支付商的安全性和效果。我们模型的可扩展性和适应性在各种交易背景下有着广泛的适用性。
Dec, 2023