大型语言模型在表格数据上的应用 -- 综述
利用大型语言模型(LLMs)解决数据科学中与表格数据相关的预测任务的研究,通过创建一个包含注解指令的综合数据集来对 LLM 进行大规模训练,研究应用训练好的模型在零样本预测、少样本预测和上下文学习场景中的实际应用,并通过实验证明该方法在表格智能方面相较于现有基准有显著改进。
Mar, 2024
通过对大型语言模型(LLMs)在表格任务方面的应用进行全面的概述,本文除了涵盖传统的表格问答(Table QA)和事实验证等领域,还强调了表格操作和高级表格数据分析等新方面,并介绍了 LLMs 中的指导调优、提示和基于代理的方法,同时也提出了私有部署、高效推理和开发广泛基准的相关挑战。
Feb, 2024
通过对大型语言模型的研究,揭示了它们在解释和推理表格数据方面的能力,发现表格结构变化对模型性能的影响,提出了表格结构归一化的方法,并且比较了文本推理和符号推理,同时通过多个推理路径的聚合,取得了在 WIKITABLEQUESTIONS 任务上的最新成果。
Dec, 2023
通过提取 TabLib 语料库中的一个大规模高质量训练数据集,我们针对表格数据预测问题,使用 Llama 3-8B 大型语言模型(LLM)进行微调,并采用一种新颖的填充和注意力机制,实现了在未见过的表格上的零样本准确率超过随机猜测 15 个百分点以上的 TabuLa-8B,以及在少样本情况下比 XGBoost 和 TabPFN 模型更准确的能力。
Jun, 2024
通过提出 Tabula,使用语言模型结构的表格数据合成器,我们揭示了使用为自然语言处理设计的预训练语言模型在表格数据合成领域的内在局限性,并通过一种令人满意的基础模型开展了针对表格数据合成的专用基础模型的研发。此外,我们提出了一种令牌序列压缩策略,可显著减少训练时间同时保持合成数据的质量。实验证明,使用语言模型结构而不加载训练有素的模型权重可以获得更好的表格数据合成起始模型。此外,之前针对其他表格数据训练的 Tabula 模型可作为新的表格数据合成任务的优秀基础模型,而且该令牌序列压缩方法可大幅降低模型的训练时间。结果表明,Tabula 相较于当前基于 LLMs 的最先进算法而言,平均每个时期减少 46.2% 的训练时间,并始终获得更高的合成数据效用。
Oct, 2023
通过一系列的实验,我们发现大型语言模型在表格预测任务中往往会继承社会偏见,这从根源上影响了它们的公平性,并且通过标签反转等方法可以显著减少这些偏见。
Oct, 2023
该研究论文对大型语言模型数据集进行了综述和分类,包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面;此外还提供了现有数据集资源的综合评估,涵盖 8 个语言类别和 32 个领域,包括来自 444 个数据集的统计信息,共计超过 774.5 TB 的预训练语料库数据和 7 亿个实例的其他数据集数据;旨在为研究人员提供整个 LLM 文本数据集的全貌,并为未来的研究做出贡献。
Feb, 2024
通过将表格数据序列化为自然语言字符串和分类问题简述作为输入,使用大型语言模型进行零样本和小样本分类数据的研究,并评估了几种序列化方法,发现这种方法在多个基准数据集上优于以前的深度学习分类方法。
Oct, 2022