为表格先验数据拟合网络缩放的草图和特征选择
通过开发上下文优化技术,我们提出了一种名为 TuneTables 的新型提示调整策略,将大数据集压缩成较小的学习上下文,从而显著提高了 PFN 的性能,并在较大数据集上与最先进的表格分类方法具有竞争力,同时推断时间大幅降低。此外,我们展示了 TuneTables 作为一种可解释性工具的应用,并通过优化公正目标来减轻偏见问题。
Feb, 2024
传统的表格分类方法通常依赖于从头开始的有监督学习,需要大量训练数据来确定模型参数。然而,一种名为 Prior-Data Fitted Networks(TabPFN)的新方法改变了这一范式。TabPFN 使用在大型合成数据集上进行训练的 12 层变压器来学习通用的表格表示。这种方法能够通过单次前向传递快速和准确地对新任务进行预测,且无需额外的训练。虽然 TabPFN 在小型数据集上表现出色,但处理分类特征时通常表现较弱。为了克服这一限制,我们提出了 FT-TabPFN,它是 TabPFN 的增强版本,包括了一种新颖的特征标记化层来更好地处理分类特征。通过针对下游任务进行微调,FT-TabPFN 不仅扩展了原始模型的功能,而且在表格分类中显著提高了其适用性和准确性。我们的完整源代码可供社区使用和开发。
Jun, 2024
由于先验拟合网络(PFN)在低数据环境中展示出的极具潜力的结果,我们提出了一种适用于 TabPFN 的解释性方法,通过利用该模型的独特性质,我们的适应方法能更高效地计算 Shapley 值的估计以及在处理大规模 Transformer 时使用 Leave-One-Covariate-Out。此外,我们还展示了如何利用数据估值方法来解决 TabPFN 的可扩展性挑战。
Mar, 2024
TabPFN 是一个训练有素的 Transformer,可对小型表格数据集进行监督分类,无需调整超参数,并且在与最先进的分类方法竞争中具有竞争力,它彻底包含在我们网络的权重中,并接受训练和测试样本以及一系列值输入,并在单个前向传递中为整个测试集产生预测,其先验扩展了因果推理的一些想法,适用于预测与给定输入和输出相关的结构因果模型。
Jul, 2022
该研究论文探讨了先验数据拟合网络(PFN)的理论基础,以及控制其行为的统计机制。虽然 PFN 是受贝叶斯思想启发的,但其行为可以纯粹地以预调整但未经训练的预测器来解释。
May, 2023
通过将 TabPFN 转化为基于能量的生成模型 TabPFGen,利用其在上下文判别表格任务中的学习能力,我们在标准生成建模任务中展示出了强大的结果,包括数据增强、类别平衡和数据插补,从而开启了表格数据生成的新领域。
Jun, 2024
本文介绍了 Prior-Data Fitted Networks (PFN) 方法,该方法利用大规模机器学习技术来逼近大量的后验概率。PFN 的目标是将后验逼近问题表述为带有集合值输入的监督分类问题,并展示了在多种不同领域的强大效果。
Dec, 2021
基于表格数据的局部校准 PFN 模型,在 TabZilla 的 95 个数据集上,提供了改进的性能,从而展示了我们方法对于深度学习在表格数据中的前沿研究所取得的有效性。
Jun, 2024
提出了一种基于超网络架构的 MotherNet 模型,通过在训练集上进行一次前向传播生成一个经过训练的子神经网络,用于多类别分类任意表格数据集,并在效率和鲁棒性方面具有竞争力。
Dec, 2023
该论文介绍了如何利用 Prior-data Fitted Networks (PFNs) 在贝叶斯优化中作为一种灵活的代理模型,并演示了 PFN 在人工高斯过程和超参数优化测试方面的效用。
May, 2023