应用表格转换器挑战 Booking.com 诈骗检测中的梯度提升决策树

May, 2024

应用表格转换器挑战 Booking.com 诈骗检测中的梯度提升决策树

Challenging Gradient Boosted Decision Trees with Tabular Transformers for Fraud Detection at Booking.com

Sergei Krutikov, Bulat Khaertdinov, Rodion Kiriukhin, Shubham Agrawal, Kees Jan De Vries

TL;DR使用 SSL 技术的基于 Transformer 的神经网络在欺诈检测任务中超越 GBDT 算法，在大规模实验中，预训练的 Transformer 模型在有限的微调数据上表现更加一致且需要较少的标记数据。

Abstract

transformer-based neural networks, empowered by self-supervised learning (SSL), have demonstrated unprecedented performance across various domains. However, related literature suggests that →

transformer-based neural networks self-supervised learning tabular transformers fraud detection gradient boosted decision trees

发现论文，激发创造

利用梯度提升决策树增强 Transformers 在 NLI 微调中的效能

本文探讨了采用 Gradient Boosted Decision Trees 作为分类器的自然语言推断（NLI）任务方法，介绍了 FreeGBDT 方法，该方法可以在不增加神经网络的计算量的情况下，提高对特征的分类精度，实验证明 FreeGBDT 对于多个 NLI 数据集的 RoBERTa-large 基线模型都有稳定的提升。

May, 2021

神经网络何时在表格数据上优于增强树？

该研究分析了在标签数据上使用神经网络（NN）和梯度增强决策树（GBDT）的性能差异，发现针对不同数据集，NN 和 GBDT 的表现各有千秋，需要根据数据集来选择合适的算法并进行超参数调优。

May, 2023

表格数据：关注力是您所需的全部吗？

通过对大规模的实证研究，本文发现神经网络在结构化表格数据上与决策树具有竞争力，而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。

Feb, 2024

用表格转换器对多元时间序列进行建模

本研究利用深度学习算法构建神经网络模型，对具有层级结构的表格时间序列进行表示学习，提供了一种类似于 BERT 的预训练模型以及类似于 GPT 的合成模型，并在信用卡诈骗检测和空气污染浓度预测两个领域应用验证了模型的效果。

Nov, 2020

基于表格数据的深度学习：一种自监督方法

使用自监督学习的 TabTransformer 模型，通过描述一种新颖的表格数据训练方法，提高了对分类和数值特征的建模能力。通过对比传统机器学习模型和自监督学习方法，研究结果显示 TabTransformer 在表格数据上的性能优势。

Jan, 2024

基于树混合 MLP 的 GBDT 和 DNN 的联合：进一步提升高效和有效的表格预测

该研究提出了一种新的框架，将 Gradient Boosted Decision Trees (GBDTs) 和 Deep Neural Networks (DNNs) 的优势结合起来，形成一种效率与 GBDTs 相当且具有竞争力的 DNN 算法，以解决在特定表格数据集上选择有效模型的难题。通过组合关键组件，如 GBDT 特征筛选、DNN 架构修剪和反向传播优化器，共同训练一个随机初始化的 MLP 模型，实验证明该方法在具有高度调优的 DNN 和 GBDT 主导的表格基准上表现出竞争力，并且具有紧凑的模型存储和显著降低的训练时间。

Jul, 2024

具有随机竞争的变压器用于表格数据建模

基于 Transformer 架构和两种形式的随机竞争，我们提出了一种为表格数据特别设计的新型随机深度学习模型，并在广泛使用的公开数据集上验证了其高性能及深度学习在表格数据应用方面的显著进展。

Jul, 2024

公平约束下的梯度提升树

我们提出了 FairGBM，这是一种用于在公平约束下训练 GBDT 的双升学习框架，其对预测性能的影响很小，同时提出了平滑的凸误差率代理。

Sep, 2022

TransTab: 在表格间学习可迁移的表格变换器

该研究论文提出了一种名为转移性表格变压器（TransTab）的新方法，该方法通过将表格中的每个样本（即行）转换为可推广的嵌入向量，然后应用堆叠的变压器进行特征编码，来学习来自多个表格的机器学习模型。该方法探讨了如何在训练和测试期间使用多个具有部分重叠列的表格进行机器学习模型的预测，并对预训练模型的性能进行了分析和比较。

May, 2022

规模化生成预训练：基于 Transformer 的交易行为编码用于欺诈检测

介绍了一种创新的自回归模型，利用了 Generative Pretrained Transformer (GPT) 架构，专为支付系统中的欺诈检测而设计。我们的方法创新性地解决了令牌爆炸问题，并通过时间和上下文分析重构行为序列，提供了对交易行为的细致理解。利用无监督预训练，我们的模型在特征表示方面表现突出，无需有标签的数据。此外，我们整合了一种差分卷积方法来增强异常检测，提高了中国最大在线支付商的安全性和效果。我们模型的可扩展性和适应性在各种交易背景下有着广泛的适用性。

Dec, 2023