- TabularMark:机器学习中的表格数据水印
使用基于假设检验的水印方案 TabularMark 对表格数据进行水印处理,在保留数据实用性的同时,防止攻击者在攻击的数据集上训练有效的机器学习模型。实验结果表明,TabularMark 在可检测性、非侵入性和鲁棒性方面具有优势。
- 基于表格数据的 Kolmogorov-Arnold 网络的基准研究
本文在真实的表格式数据集上进行了 Kolmogorov-Arnold Networks (KANs) 和 Multi-Layer Perceptrons (MLPs) 的基准测试研究,结果显示 KANs 在处理复杂数据时表现出色,但相较于可 - 测量和减轻具有多个受保护属性的表格数据中的偏差
提出了新的歧视衡量方法,并介绍了一种新的偏见减轻方法,实验证明了这种策略可以减少多个保护属性的数据集中的歧视。
- 提升填补准确率:利用上下文的大型语言模型加强插补数据
这篇论文介绍了上下文语言模型用于准确插补方法 (CLAIM),一种利用预训练大型语言模型 (LLMs) 的广泛知识和推理能力来解决表格数据集中缺失数据挑战的新策略。通过利用上下文相关的自然语言描述符来填充丢失的值,CLAIM 方法转换数据集 - AAAI高斯过程神经附加模型
神经外包模型(NAMs)的发展标志着可解释的深度学习在表格数据集上的重要进展,我们提出了一种新的 NAMs 子类 —— 通过随机傅立叶特征的高斯过程的单层神经网络结构,称为高斯处理神经外加模型(GP-NAM),它具有凸优化函数和可训练参数数 - 表格数据的自动模型选择
该研究论文提出了两种自动化模型选择方法,分别是基于优先级的随机网格搜索和贪婪搜索方法,应用于包含特征交互的表格数据集,有效捕获预测性特征组合。
- JarviX:一款用于表格数据分析和优化的无代码平台
JarviX 是一个复杂的数据分析框架,采用大型语言模型(LLMs)来实现对表格数据集的自动化导引和高精度数据分析,强调不同列类型的重要性,并利用先进的 LLMs 生成简洁的数据洞察摘要,提出相关分析问题,有效地可视化数据,并为广泛的数据分 - 跨异构特征空间的表格式少样本泛化
对于标签数据集,目前还未深入探索少样本学习。现有的少样本学习方法不适用于标签数据集,因为其存在不同的列关系、意义和排列不变性。为了解决这些挑战,我们提出了一种名为 FLAT 的新型标签少样本学习方法,涵盖了异构特征空间下数据集之间的知识共享 - 冲突感知特征解释
我们提出了一种新颖的特征归因方法 CAFE(冲突感知特征解释),它解决了现有方法中的三个限制:它们忽视冲突特征的影响,不考虑偏差项的影响,以及对基础激活函数的局部变化过于敏感。与其他方法不同,CAFE 在溯源神经元输入的影响上提供了防止效应 - 简化模型之路始于噪声
在本研究中,我们探讨了数据生成过程中的机制以及分析师在学习过程中做出的选择,以确定 Rashomon 比率的大小。我们证明了更嘈杂的数据集通过从业者训练模型的方式导致较大的 Rashomon 比率。此外,我们还引入了一种称为模式多样性的度量 - 用于基于风险决策的深度学习分类中的离散输入噪声量化不确定性
深度神经网络在风险决策中的应用受到广泛关注,已在医学、金融、制造和质量控制等领域取得广泛应用。本文提出了一种数学框架,用于量化深度神经网络模型的预测不确定性,特别针对含有离散特征变量的表格数据集。通过对结核病患者在治疗过程中的预测进行案例研 - 深度生成模型、合成表格数据与差分隐私:概述与综述
该文章综合介绍了最近在通过深度生成模型生成合成数据方面的研究进展,重点关注表格数据集。我们特别概述了在隐私敏感数据背景下合成数据生成的重要性。此外,我们强调了使用深度生成模型相对于其他方法的优势,并详细解释了底层概念,包括无监督学习、神经网 - ICMLMissDiff:在带有缺失值的表格数据上训练扩散模型
这项工作提出了一个统一且原则性的扩散式框架,用于在各种缺失机制下从数据中学习丢失值,并通过多个制表符数据集的评估证明了其优于当前最先进的扩散模型。
- SeFNet:用语义特征网络连接表格数据集
本文介绍了一种称为 Semantic Feature Net (SeFNet) 的新方法,其通过使用现有的本体和领域知识来捕捉分析表格特征的语义含义,提高了元学习的潜力并允许在不同的预测任务之间共享有价值的见解。
- 无算法公平的七年回溯
本文通过数千次模型评估,并采用一种叫做 “取消后处理方法” 的简单理念,对多篇针对改进后处理基线的论文进行实证评估,发现在不同的表格数据集上所实现的公平性 - 准确性 Pareto 前沿线包含了所有现有的其他改进方法。作者还纠正了之前的两个 - 在 d≫n 时使用辅助知识图谱实现表格深度学习
我们提出了 PLATO 方法,该方法通过使用描述输入特征的辅助知识图来规范多层感知器(MLP),在 d >> n 的表格数据上实现了强大的性能
- GPT 用于半自动化数据科学:介绍 CAAFE 进行上下文感知的自动特征工程
通过利用大型语言模型,提出了 Context-Aware Automated Feature Engineering(CAAFE)方法,该方法可以在表格数据集中生成语义相关的功能。通过将此方法应用于 14 个数据集,可以提高 11 个数据集 - 生成强健的反事实解释
本文提出了一种名为 CROCO 的新框架,用于生成具有鲁棒性的反事实解释,并有效地管理反事实输入更改带来的挑战,针对表格数据进行评估,证明了该方法的有效性。
- HyperTab: 基于超网络的小型表格数据深度学习方案
HyperTab 是一种基于超网络的方法,用于在表格数据集上处理小样本问题,将随机森林和神经网络的优势相结合,同时生成神经网络集合,每个目标模型专门处理数据的特定低维视图。
- TT-TFHE: 一个支持环上完全同态加密的神经网络结构
TT-TFHE 是一个基于神经网络的同态加密框架,可以有效将 TFHE 用于表格和图像数据集中,该框架在加密数据推断的时间和准确性方面表现出色,特别是相对于其他 TFHE 设置和 HE 变体。