基于类别条件和特征相关的增强的表格数据对比学习

Apr, 2024

基于类别条件和特征相关的增强的表格数据对比学习

Tabular Data Contrastive Learning via Class-Conditioned and Feature-Correlation Based Augmentation

Wei Cui, Rasa Hosseinzadeh, Junwei Ma, Tongzi Wu, Yi Sui...

TL;DR对于表格数据的对比学习任务，传统的数据增强方法效果有限，因此我们提出了一种基于类别标识的数据增强技术，通过针对类别条件对表格数据进行破坏性操作，实验证明该方法在表格数据分类任务中表现出色。

Abstract

contrastive learning is a model pre-training technique by first creating similar views of the original data, and then encouraging the data and its corresponding views to be close in the embedding space. contrastive lear

发现论文，激发创造

TABBIE：表格数据的预训练表示

通过自我学习目标函数和预训练语言模型（如BERT）对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务（例如回答关于表格的问题）的性能，但在没有任何相关文本的情况下处理表格的任务（例如填充缺失的单元格）时表现不佳。我们提出了一种简单的预训练目标（损坏单元格检测），该预训练目标只是从表格数据中学习，并且在一套基于表格的预测任务上达到了最先进的水平，从而超过了竞争方法。与其他方法不同，我们的模型（TABBIE）提供了所有表子结构（单元格、行和列）的嵌入，并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析，结果表明它可以理解复杂的表语义和数字趋势。

May, 2021

基于局部对比的表格数据特征学习

本文提出了一种新的本地对比特征学习（LoCL）框架，其主题是从表格数据中学习本地模式/特征。利用特征相关性创建最大生成树并将其分解，使用卷积学习特征，受对比和重构损失控制，与其他领先方法相比在公共表格数据集上实验表明提出的方法的有效性。

Nov, 2022

CoDi: 混合型表格合成的共进对比扩散模型

本研究提出了一种名为CoDi的方法，通过差分模型将连续变量和离散变量分开处理并相互条件，并引入对比学习方法进行负采样以进一步绑定扩散模型，以提高人工合成表格数据的准确性。

Apr, 2023

深度学习中针对表格数据的数据增强策略重新审视

本文提出了一种名为 $ extbf{M}$ask $ extbf{T}$oken $ extbf{R}$eplacement ($ exttt{MTR}$) 的数据增广方法，利用 Transformer 的特性对每个列嵌入进行数据增广来提高模型性能。通过在 13 个各异的公共数据集中运行受监督和自监督的学习场景，我们表明 $ exttt{MTR}$ 相对于现有数据增广方法具有竞争性能，并改善了模型性能。此外，还讨论了 $ exttt{MTR}$ 最有效的特定场景，并确定了其应用范围。

May, 2023

CT-BERT：通过跨表格预训练学习更好的表格表示

该研究论文探讨了针对表格数据的交叉表预训练的关键研究挑战，并提出了一种名为CT-BERT的新型框架，同时引入了对比学习和表格建模的目标，通过广泛的实证结果证明CT-BERT在监督和自监督设置下显著优于之前的方法。

Jul, 2023

面向表格数据学习的基础模型研究

本文提出了Tabular Foundation Models (TabFMs)，通过在广泛的表格数据集上使用预训练的大型语言模型 (LLM) 并进行微调，实现了对表格数据具有深刻理解和普适能力的目标。TabFMs在指导性任务（如零样本和上下文推理）方面具有显著优势，并且在某些情况下甚至超越了著名但神秘的闭源LLMs，如GPT-4。此外，当仅有有限的数据进行微调时，我们的模型表现出了出色的效率和竞争性表现。最后，我们也探讨了TabFM的局限性和潜在机会，旨在激发和促进未来开发更强大的TabFMs的研究。

Oct, 2023

表格数据的注意力对比学习 - 数据中心的基准测试

通过对28个表格数据集的广泛评估，本文介绍了在传统深度学习与机器学习基线上，在各个表格数据集上实现卓越性能的注意力和对比学习方法，以促进该领域的进一步发展。

Jan, 2024

非顺序表格数据的自监督学习综述

非顺序的表格数据的自监督学习（SSL4NS-TD）的发展、挑战、方法和应用研究的综述。

Feb, 2024

机器学习中的表格数据增强：拥抱生成性人工智能的进展与前景

本研究旨在解决高质量表格数据不足的问题，通过概述生成性人工智能在表格数据增强（TDA）中的应用，提供了全面的进展回顾和未来展望。论文提出了TDA的三个主要步骤，包括前处理、增强和后处理，并系统分析了当前方法，强调了在生成性人工智能时代的新机遇。研究结果显示，利用生成性AI可以显著提升表格数据的质量与多样性，进而推动机器学习任务的进步。

Jul, 2024

基于标签比例的类别感知无增强对比学习

本研究解决了标签比例学习（LLP）中袋级监督与实例级预测目标之间的不匹配问题，特别是在表格数据中。提出的无增强对比框架TabLLP-BDC引入了类别感知监督，通过两阶段的袋差对比学习机制，成功实现了强健的实例级监督。实验证明，TabLLP-BDC在表格领域的LLP任务中取得了最新的性能。

Aug, 2024