表格深度学习中数字特征的嵌入

Mar, 2022

On Embeddings for Numerical Features in Tabular Deep Learning

Yury Gorishniy, Ivan Rubachev, Artem Babenko

TL;DR本研究针对数值特征在计算表格数据方面的表现，提出在深度学习中使用数值特征嵌入提升性能的方法，并重点研究两种不同的嵌入方式，并实现了嵌入在简单 MLP-like 模型与 attention-based 结构中的对比性能提升。

Abstract

Recently, Transformer-like deep architectures have shown strong performance on tabular data problems. Unlike traditional models, e.g., mlp, these architectures map scalar values of →

embedding modules numerical features tabular data deep learning mlp

发现论文，激发创造

提升预训练语言模型在表格预测任务中的性能

TP-BERTa 是一种专门用于表格数据预测的预训练语言模型，通过将数值特征值转换为离散的高维标记，并使用内部特征注意方法将特征值与相应的特征名称相结合，TP-BERTa 在典型的表格数据领域中在表格 DNN 中表现卓越，并与梯度提升决策树模型具备竞争力。

Mar, 2024

表格式学习：实体和上下文嵌入的编码

通过检查不同的编码技术对实体和上下文嵌入的影响，本研究的目标是挑战常用的顺序编码在表格学习中的应用。通过应用不同的预处理方法和网络架构在几个数据集上，得出了编码器对网络学习结果的影响的基准。通过保持测试、验证和训练数据的一致性，结果表明顺序编码在预处理数据和随后正确分类目标变量方面对于分类数据来说并不是最合适的编码器。通过计算相似度矩阵作为网络输入，基于字符串相似性对特征进行编码可以取得更好的结果。无论是实体还是上下文嵌入，变压器架构在顺序编码和相似度编码方面都表现出了改进的多标签分类任务性能。

Mar, 2024

TabTransformer：使用上下文嵌入建模表格数据

TabTransformer 是一个基于自注意力变换器 (Transformer) 的深度表格数据建模架构，可应用于监督和半监督学习。经过在 15 个公开数据集上的广泛实验，我们展示了 TabTransformer 在表格数据的深度学习方法中的超越和匹配效果。同时，我们演示了从 TabTransformer 学习的环境嵌入具有高度的鲁棒性，可用于噪声和丢失形式的数据特征，提供更好的可解释性。最后，对于半监督场景，我们开发了一种无监督的预训练过程来学习数据驱动的上下文嵌入，使 AUC 平均提升 2.1%。

Dec, 2020

用表格转换器对多元时间序列进行建模

本研究利用深度学习算法构建神经网络模型，对具有层级结构的表格时间序列进行表示学习，提供了一种类似于 BERT 的预训练模型以及类似于 GPT 的合成模型，并在信用卡诈骗检测和空气污染浓度预测两个领域应用验证了模型的效果。

Nov, 2020

NuTime: 大规模时间序列预训练的数值多尺度嵌入

这篇论文介绍了一种基于时间序列的自监督模型，通过采用 Transformer 架构和多尺度嵌入模块，在大规模数据集上取得了显著的改进，建立了新的最优实验结果。

Oct, 2023

基于表格数据的深度学习：一种自监督方法

使用自监督学习的 TabTransformer 模型，通过描述一种新颖的表格数据训练方法，提高了对分类和数值特征的建模能力。通过对比传统机器学习模型和自监督学习方法，研究结果显示 TabTransformer 在表格数据上的性能优势。

Jan, 2024

SuperTML：用于结构化表格数据的二维词嵌入

本文提出了 SuperTML 方法，通过采用两维度嵌入超级字符的思想，将表格数据进行二维嵌入，然后使用 fine-tuned 二维 CNN 模型来解决分类问题。实验结果表明，该方法在大型和小型数据集上都取得了最先进的结果。

Feb, 2019

表格数据：关注力是您所需的全部吗？

通过对大规模的实证研究，本文发现神经网络在结构化表格数据上与决策树具有竞争力，而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。

Feb, 2024

探索语言模型中的内部数理能力：ALBERT 的研究案例

该研究提出了一种方法来研究 Transformer 语言模型内部如何表示数字数据，并使用该方法分析了 ALBERT 语言模型系列。通过主成分分析（PCA），我们提取这些模型用于表示数字和序数的令牌的学习嵌入，PCA 结果显示不同大小、训练和初始化分开的 ALBERT 模型一致地学习使用变化最大的轴来表示各种数值概念的近似排序，数字及其文本对应部分分别在不同的簇中表示，但在 2D 空间中沿着相同的方向增长。我们的发现表明，纯粹用于建模文本的语言模型可以理解基本的数学概念，为与定量推理交叉的 NLP 应用开辟了新的发展路径。

Apr, 2024

基于图神经网络的表格数据深度学习上下文嵌入

本文提出了一种新型深度学习模型，使用图神经网络（GNN）—— 特别是交互网络（IN）进行情境嵌入，以应对以表格形式存在的异构数据和特征。该模型在五个公共数据集上的深度学习基准测试中表现优异，优于最近发表的研究结果，并在与增强树解决方案的比较中也取得了竞争结果。

Mar, 2023