Jun, 2024

基于语言建模的表格数据大规模迁移学习

TL;DR通过提取 TabLib 语料库中的一个大规模高质量训练数据集,我们针对表格数据预测问题,使用 Llama 3-8B 大型语言模型(LLM)进行微调,并采用一种新颖的填充和注意力机制,实现了在未见过的表格上的零样本准确率超过随机猜测 15 个百分点以上的 TabuLa-8B,以及在少样本情况下比 XGBoost 和 TabPFN 模型更准确的能力。