基于类别条件和特征相关的增强的表格数据对比学习
通过自我学习目标函数和预训练语言模型(如BERT)对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务(例如回答关于表格的问题)的性能,但在没有任何相关文本的情况下处理表格的任务(例如填充缺失的单元格)时表现不佳。我们提出了一种简单的预训练目标(损坏单元格检测),该预训练目标只是从表格数据中学习,并且在一套基于表格的预测任务上达到了最先进的水平,从而超过了竞争方法。与其他方法不同,我们的模型(TABBIE)提供了所有表子结构(单元格、行和列)的嵌入,并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析,结果表明它可以理解复杂的表语义和数字趋势。
May, 2021
本文提出了一种新的本地对比特征学习(LoCL)框架,其主题是从表格数据中学习本地模式/特征。利用特征相关性创建最大生成树并将其分解,使用卷积学习特征,受对比和重构损失控制,与其他领先方法相比在公共表格数据集上实验表明提出的方法的有效性。
Nov, 2022
本研究提出了一种名为CoDi的方法,通过差分模型将连续变量和离散变量分开处理并相互条件,并引入对比学习方法进行负采样以进一步绑定扩散模型,以提高人工合成表格数据的准确性。
Apr, 2023
本文提出了一种名为 $ extbf{M}$ask $ extbf{T}$oken $ extbf{R}$eplacement ($ exttt{MTR}$) 的数据增广方法,利用 Transformer 的特性对每个列嵌入进行数据增广来提高模型性能。通过在 13 个各异的公共数据集中运行受监督和自监督的学习场景,我们表明 $ exttt{MTR}$ 相对于现有数据增广方法具有竞争性能,并改善了模型性能。此外,还讨论了 $ exttt{MTR}$ 最有效的特定场景,并确定了其应用范围。
May, 2023
该研究论文探讨了针对表格数据的交叉表预训练的关键研究挑战,并提出了一种名为CT-BERT的新型框架,同时引入了对比学习和表格建模的目标,通过广泛的实证结果证明CT-BERT在监督和自监督设置下显著优于之前的方法。
Jul, 2023
本文提出了Tabular Foundation Models (TabFMs),通过在广泛的表格数据集上使用预训练的大型语言模型 (LLM) 并进行微调,实现了对表格数据具有深刻理解和普适能力的目标。TabFMs在指导性任务(如零样本和上下文推理)方面具有显著优势,并且在某些情况下甚至超越了著名但神秘的闭源LLMs,如GPT-4。此外,当仅有有限的数据进行微调时,我们的模型表现出了出色的效率和竞争性表现。最后,我们也探讨了TabFM的局限性和潜在机会,旨在激发和促进未来开发更强大的TabFMs的研究。
Oct, 2023
通过对28个表格数据集的广泛评估,本文介绍了在传统深度学习与机器学习基线上,在各个表格数据集上实现卓越性能的注意力和对比学习方法,以促进该领域的进一步发展。
Jan, 2024
本研究旨在解决高质量表格数据不足的问题,通过概述生成性人工智能在表格数据增强(TDA)中的应用,提供了全面的进展回顾和未来展望。论文提出了TDA的三个主要步骤,包括前处理、增强和后处理,并系统分析了当前方法,强调了在生成性人工智能时代的新机遇。研究结果显示,利用生成性AI可以显著提升表格数据的质量与多样性,进而推动机器学习任务的进步。
Jul, 2024
本研究解决了标签比例学习(LLP)中袋级监督与实例级预测目标之间的不匹配问题,特别是在表格数据中。提出的无增强对比框架TabLLP-BDC引入了类别感知监督,通过两阶段的袋差对比学习机制,成功实现了强健的实例级监督。实验证明,TabLLP-BDC在表格领域的LLP任务中取得了最新的性能。
Aug, 2024