SuperTML:用于结构化表格数据的二维词嵌入
提议了一种名为流式超表格机器学习(SSTML)的方法,通过使用 STML 算法将连续的数据块编码为图像表示,并执行单个 ResNet-18 训练周期,从而首次探索了多维编码(MDE)在困难数据流分类任务中的潜力,实验证明 SSTML 能够以统计上显著优于现有算法的分类质量,同时保持可比较的处理时间。
Apr, 2024
本研究提出了一种名为 SuperCaptioning 的方法,通过借鉴 Super Characters 方法中的二维词嵌入思想,在一个单一的 CNN 模型中同时处理语言和视觉信息,从而将图像字幕生成问题转化为图像分类问题,实验证明此方法可以在 Flickr30k 数据上生成高质量的图像字幕,并提供互动演示。
May, 2019
通过树正则化表征,我们提出了一种在表格数据中实现树状神经网络的方法,该方法不仅在与树状模型的性能差异方面收敛,而且在与先进神经网络模型的性能相比较时表现出色,具有更好的鲁棒性,并且可以作为独立编码器轻松扩展和普适于表格数据模态。
Mar, 2024
TabTransformer 是一个基于自注意力变换器 (Transformer) 的深度表格数据建模架构,可应用于监督和半监督学习。经过在 15 个公开数据集上的广泛实验,我们展示了 TabTransformer 在表格数据的深度学习方法中的超越和匹配效果。同时,我们演示了从 TabTransformer 学习的环境嵌入具有高度的鲁棒性,可用于噪声和丢失形式的数据特征,提供更好的可解释性。最后,对于半监督场景,我们开发了一种无监督的预训练过程来学习数据驱动的上下文嵌入,使 AUC 平均提升 2.1%。
Dec, 2020
本文使用神经语言模型将表格数据嵌入向量空间,并将它们作为额外的语义相似性信号,应用于三种特定的表格相关任务:行填充、列填充和表检索。评估结果表明,表格嵌入可以显著提高现有基线模型的性能。
May, 2019
TP-BERTa 是一种专门用于表格数据预测的预训练语言模型,通过将数值特征值转换为离散的高维标记,并使用内部特征注意方法将特征值与相应的特征名称相结合,TP-BERTa 在典型的表格数据领域中在表格 DNN 中表现卓越,并与梯度提升决策树模型具备竞争力。
Mar, 2024
通过对大规模的实证研究,本文发现神经网络在结构化表格数据上与决策树具有竞争力,而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。
Feb, 2024
本文提出基于 Super Characters 方法和二维嵌入技术的对话式回复生成方法,实验结果表明提出的 SuperChat 方法可以生成高质量回复,并有工作坊提供交互演示。
May, 2019
本研究利用深度学习算法构建神经网络模型,对具有层级结构的表格时间序列进行表示学习,提供了一种类似于 BERT 的预训练模型以及类似于 GPT 的合成模型,并在信用卡诈骗检测和空气污染浓度预测两个领域应用验证了模型的效果。
Nov, 2020
该论文提出了一种基于字符级卷积神经网络的转移学习方法,用于语意分类表格数据,并开发了一个名为 SIMON 的工具包,它可以在自然语言处理中进行分类、垃圾邮件分类和社交媒体年龄预测等任务。
Jan, 2019