SuperTML：用于结构化表格数据的二维词嵌入

CVPRFeb, 2019

SuperTML：用于结构化表格数据的二维词嵌入

SuperTML: Two-Dimensional Word Embedding for the Precognition on Structured Tabular Data

Baohua Sun, Lin Yang, Wenhan Zhang, Michael Lin, Patrick Dong...

TL;DR本文提出了 SuperTML 方法，通过采用两维度嵌入超级字符的思想，将表格数据进行二维嵌入，然后使用 fine-tuned 二维 CNN 模型来解决分类问题。实验结果表明，该方法在大型和小型数据集上都取得了最先进的结果。

Abstract

tabular data is the most commonly used form of data in industry. Gradient Boosting Trees, Support Vector Machine, Random Forest, and Logistic Regression are typically used for classification tasks on

tabular data dnn models two-dimensional embeddings supertml method classification

发现论文，激发创造

利用二维词嵌入进行困难数据流分类

提议了一种名为流式超表格机器学习（SSTML）的方法，通过使用 STML 算法将连续的数据块编码为图像表示，并执行单个 ResNet-18 训练周期，从而首次探索了多维编码（MDE）在困难数据流分类任务中的潜力，实验证明 SSTML 能够以统计上显著优于现有算法的分类质量，同时保持可比较的处理时间。

Apr, 2024

SuperCaptioning: 利用二维词嵌入进行图像字幕生成

本研究提出了一种名为 SuperCaptioning 的方法，通过借鉴 Super Characters 方法中的二维词嵌入思想，在一个单一的 CNN 模型中同时处理语言和视觉信息，从而将图像字幕生成问题转化为图像分类问题，实验证明此方法可以在 Flickr30k 数据上生成高质量的图像字幕，并提供互动演示。

May, 2019

树正则化的表格嵌入

通过树正则化表征，我们提出了一种在表格数据中实现树状神经网络的方法，该方法不仅在与树状模型的性能差异方面收敛，而且在与先进神经网络模型的性能相比较时表现出色，具有更好的鲁棒性，并且可以作为独立编码器轻松扩展和普适于表格数据模态。

Mar, 2024

TabTransformer：使用上下文嵌入建模表格数据

TabTransformer 是一个基于自注意力变换器 (Transformer) 的深度表格数据建模架构，可应用于监督和半监督学习。经过在 15 个公开数据集上的广泛实验，我们展示了 TabTransformer 在表格数据的深度学习方法中的超越和匹配效果。同时，我们演示了从 TabTransformer 学习的环境嵌入具有高度的鲁棒性，可用于噪声和丢失形式的数据特征，提供更好的可解释性。最后，对于半监督场景，我们开发了一种无监督的预训练过程来学习数据驱动的上下文嵌入，使 AUC 平均提升 2.1%。

Dec, 2020

Table2Vec: 表格填充和检索的神经单词和实体嵌入

本文使用神经语言模型将表格数据嵌入向量空间，并将它们作为额外的语义相似性信号，应用于三种特定的表格相关任务：行填充、列填充和表检索。评估结果表明，表格嵌入可以显著提高现有基线模型的性能。

May, 2019

提升预训练语言模型在表格预测任务中的性能

TP-BERTa 是一种专门用于表格数据预测的预训练语言模型，通过将数值特征值转换为离散的高维标记，并使用内部特征注意方法将特征值与相应的特征名称相结合，TP-BERTa 在典型的表格数据领域中在表格 DNN 中表现卓越，并与梯度提升决策树模型具备竞争力。

Mar, 2024

表格数据：关注力是您所需的全部吗？

通过对大规模的实证研究，本文发现神经网络在结构化表格数据上与决策树具有竞争力，而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。

Feb, 2024

通过使用二维词向量和预训练的 ImageNet CNN 模型，从视觉到语言的迁移学习生成对话

本文提出基于 Super Characters 方法和二维嵌入技术的对话式回复生成方法，实验结果表明提出的 SuperChat 方法可以生成高质量回复，并有工作坊提供交互演示。

May, 2019

用表格转换器对多元时间序列进行建模

本研究利用深度学习算法构建神经网络模型，对具有层级结构的表格时间序列进行表示学习，提供了一种类似于 BERT 的预训练模型以及类似于 GPT 的合成模型，并在信用卡诈骗检测和空气污染浓度预测两个领域应用验证了模型的效果。

Nov, 2020

利用字符级卷积神经网络对表格数据集进行语义分类

该论文提出了一种基于字符级卷积神经网络的转移学习方法，用于语意分类表格数据，并开发了一个名为 SIMON 的工具包，它可以在自然语言处理中进行分类、垃圾邮件分类和社交媒体年龄预测等任务。

Jan, 2019