TabNet: 关注可解释的表格学习
通过对注意力机制进行研究并将其建模为从 Gumbel-Softmax 分布中采样的潜在变量,我们提出了 InterpreTabNet,该模型通过 KL 散度正则化实现了注意力掩码中不同概念的学习,从而改善了预测结果的解释性和预测关键要素的确定性,并结合大型语言模型和提示工程方法来帮助解释我们模型中特征之间的相互依赖关系。在真实数据集上的综合实验表明,InterpreTabNet 在解释表格数据方面优于先前的方法,并同时保持了较高的准确性。
Jun, 2024
提出了一种名为 TabularNet 的新型神经网络结构,采用 CNN 模型来进行表格数据的空间编码,并且利用基于 WordNet 树的图构建方法来进行单元格之间复杂的关系编码,结果表明该方法有效提高了表格分类任务的精度.
Jun, 2021
通过利用 TabNet 构架和改良的注意力模块,InterpreTabNet 既提高了分类准确性,又增强了可解释性;与其他解决方案相比,InterpreTabNet 在各种应用场景下对表格数据分析取得了更好的效果,为进一步研究创造既高精确又内在可解释的深度学习模型奠定了基础,并引入 InterpreStability 评估指标以便一致且严谨地衡量和比较模型可解释性。这些贡献潜在地有助于推动下一代可解释人工智能模型的设计原则和发展,扩大可解释人工智能解决方案在关键决策环境中的采用。
Oct, 2023
IGNNet 是一个解释性图神经网络,用于处理表格数据,通过表征学习的方式捕获特征交互,大规模的实证研究证明 IGNNet 与 XGBoost、Random Forests 和 TabNet 等最先进的机器学习算法在处理表格数据时表现相当,同时 IGNNet 的解释与特征的 Shapley 值一致而无需额外的计算开销。
Aug, 2023
我们提出了一种新颖的基于深度学习的方法来对文档中的单词进行聚类, 并应用于检测和识别 OCR 输出中的表格。我们将表的结构从底部向上解释为单词之间的关系图(属于同一行,列,标题以及同一张表),并使用 Transformer 编码器模型来预测其邻接矩阵。我们在 PubTables-1M 数据集以及 PubTabNet 和 FinTabNet 数据集上展示了我们方法的性能。与当前的最先进的检测方法如 DETR 和 Faster R-CNN 相比,我们的方法在精度上达到了类似或更好的结果,并且要求更小的模型。
Feb, 2024
通过对大规模的实证研究,本文发现神经网络在结构化表格数据上与决策树具有竞争力,而基于变压器的架构在表格数据集上并不能超过传统 MLP 架构的简化版本。这些发现有助于研究和实践社区在未来的表格数据应用中做出明智的选择。
Feb, 2024
基于树模型的注意机制结合与 (tabular data) 表格数据在 (gradient boosting) 梯度提升训练环境中学习,被证明在多个领域与包含树模型和神经网络模型的现有技术相比具有竞争力。
Feb, 2024
TabTransformer 是一个基于自注意力变换器 (Transformer) 的深度表格数据建模架构,可应用于监督和半监督学习。经过在 15 个公开数据集上的广泛实验,我们展示了 TabTransformer 在表格数据的深度学习方法中的超越和匹配效果。同时,我们演示了从 TabTransformer 学习的环境嵌入具有高度的鲁棒性,可用于噪声和丢失形式的数据特征,提供更好的可解释性。最后,对于半监督场景,我们开发了一种无监督的预训练过程来学习数据驱动的上下文嵌入,使 AUC 平均提升 2.1%。
Dec, 2020
本研究采用深度学习方法,通过利用表格的上下文语义特征和知识库查询算法,实现了对没有元数据的表格的列类型预测,不仅在单独的表格集上表现良好,转移学习到其他表格集也有良好的性能。
May, 2019
通过在稀疏的表格数据中利用拓扑约束网络表示结构,我们提出了一种新颖的深度学习架构,利用卷积提取空间信息,并通过网络拓扑的有限概念来确保数据导向、可解释性和可扩展性,在 18 个基准数据集上测试表明,我们的方法在这些具有挑战性的数据集上达到了最先进的性能。
Aug, 2023