LaTable: 大型表格模型的探索
近期的文本和图像基础模型受到了极大的关注,本文旨在将机器学习研究社区的重点稍稍转向不同的模态:表格数据。表格数据是许多领域的主要模态,但在规模和能力方面明显落后,我们认为现在是开发表格基础模型(或我们所称的大型表格模型)的时候了。大型表格模型将可能从多个角度革新科学和机器学习对表格数据的使用:不仅仅是分析单个数据集,而是联系相关数据集进行分析。潜在的影响是广泛的:从少样本表格模型到自动化数据科学;从超分布合成数据到促进多学科科学发现。我们希望激发对我们所研究模态的思考,并使一些研究人员开始研究大型表格模型。
May, 2024
本文提出了 Tabular Foundation Models (TabFMs),通过在广泛的表格数据集上使用预训练的大型语言模型 (LLM) 并进行微调,实现了对表格数据具有深刻理解和普适能力的目标。TabFMs 在指导性任务(如零样本和上下文推理)方面具有显著优势,并且在某些情况下甚至超越了著名但神秘的闭源 LLMs,如 GPT-4。此外,当仅有有限的数据进行微调时,我们的模型表现出了出色的效率和竞争性表现。最后,我们也探讨了 TabFM 的局限性和潜在机会,旨在激发和促进未来开发更强大的 TabFMs 的研究。
Oct, 2023
通过提取 TabLib 语料库中的一个大规模高质量训练数据集,我们针对表格数据预测问题,使用 Llama 3-8B 大型语言模型(LLM)进行微调,并采用一种新颖的填充和注意力机制,实现了在未见过的表格上的零样本准确率超过随机猜测 15 个百分点以上的 TabuLa-8B,以及在少样本情况下比 XGBoost 和 TabPFN 模型更准确的能力。
Jun, 2024
通过提出 Tabula,使用语言模型结构的表格数据合成器,我们揭示了使用为自然语言处理设计的预训练语言模型在表格数据合成领域的内在局限性,并通过一种令人满意的基础模型开展了针对表格数据合成的专用基础模型的研发。此外,我们提出了一种令牌序列压缩策略,可显著减少训练时间同时保持合成数据的质量。实验证明,使用语言模型结构而不加载训练有素的模型权重可以获得更好的表格数据合成起始模型。此外,之前针对其他表格数据训练的 Tabula 模型可作为新的表格数据合成任务的优秀基础模型,而且该令牌序列压缩方法可大幅降低模型的训练时间。结果表明,Tabula 相较于当前基于 LLMs 的最先进算法而言,平均每个时期减少 46.2% 的训练时间,并始终获得更高的合成数据效用。
Oct, 2023
本研究论文介绍了一种用于密度建模和表格数据生成的基于树的生成模型,该模型提高了最新提案的建模能力,并提出了一种简化先前方法训练设置并显示提升一致性收敛性的训练算法。通过实验验证了我们方法在缺失数据插补和生成数据与真实数据对比方面的优质结果。
Aug, 2023
综述中介绍了大规模语言建模在表格数据建模相关任务中的应用,包括预测、表格数据合成、问答和表格理解。通过归纳最新进展和总结数据集、度量标准和方法论,本综述发现了现有领域文献的优势、局限性、未开发的领域和研究间隙,并提供了相关代码和数据集的参考。期望以此为读者提供有关参考和深入见解,为他们在这个重要且快速进展的领域中有效应对挑战提供必备的工具和知识。
Feb, 2024
TP-BERTa 是一种专门用于表格数据预测的预训练语言模型,通过将数值特征值转换为离散的高维标记,并使用内部特征注意方法将特征值与相应的特征名称相结合,TP-BERTa 在典型的表格数据领域中在表格 DNN 中表现卓越,并与梯度提升决策树模型具备竞争力。
Mar, 2024
通过将表格数据序列化为自然语言字符串和分类问题简述作为输入,使用大型语言模型进行零样本和小样本分类数据的研究,并评估了几种序列化方法,发现这种方法在多个基准数据集上优于以前的深度学习分类方法。
Oct, 2022
利用大型语言模型(LLMs)解决数据科学中与表格数据相关的预测任务的研究,通过创建一个包含注解指令的综合数据集来对 LLM 进行大规模训练,研究应用训练好的模型在零样本预测、少样本预测和上下文学习场景中的实际应用,并通过实验证明该方法在表格智能方面相较于现有基准有显著改进。
Mar, 2024
介绍了一种公平的扩散模型,用于生成平衡的敏感属性数据,并通过实证证据表明该方法在训练数据中有效地减轻了类别不平衡问题,同时保持生成样本的质量,并且在性能和公平性方面优于现有方法用于综合表格数据。
Apr, 2024