通过解释空间检测基于表格数据的分布转移
在分布转移的研究中,$Y | X$ - 转移最为普遍,我们建立了一个经验测试平台 WhyShift,以评估算法和数据干预对协变量区域的影响,同时也强调未来建立如何处理分布差异的理解对于研究的重要性。
Jul, 2023
在机器学习任务中,分布偏移是一种常见情况,其表示训练模型使用的数据与实际应用模型的数据不同。本文旨在定义和检测教育环境中的分布偏移,关注标准预测问题,即学习一个以输入序列为输入(预测变量)X=(x_1,x_2,...,x_m) 并生成输出 Y=f (X) 的模型。
May, 2024
提出基于最差单元优化的解释方法 Group-aware Shift Explanations (GSE),在一系列的表格、语言、以及图像模型中不仅能够维持组群结构,诸如人口统计和分层子人口,同时增强了结果解释的可行性和鲁棒性。
May, 2023
本文研究了算法决策中 “解释权利” 的问题,并提出了理论和实证分析,表明模型曲率、训练时的权重衰减参数以及数据集变化的程度是影响解释稳定性的关键因素。
Jun, 2023
TabularShift 是一个用于表格数据的分布转移基准,包含 15 个二分类任务,涵盖金融、教育、公共政策、医疗保健和市民参与等领域,并通过 TableShift API 可轻松访问。在该基准上,我们对多个最先进的表格数据模型进行了大规模研究,并与健壮学习和领域泛化方法进行了比较,结果显示(1)ID 和 OOD 准确性之间存在线性趋势;(2)领域健壮性方法可以缩小转移差距,但会降低 ID 准确性;(3)标签分布转移与转移差距之间存在密切关系。
Dec, 2023
在分布转移理论中,通过采用不变风险最小化(IRM)类似的假设连接分布,研究源分布到目标分布的分类器,揭示了源分布数据足够准确分类目标的条件,并讨论了在这些条件不满足时,只需目标的无标签数据或标记目标数据的情况,并提供了严格的理论保证。
May, 2024
从信息理论的角度,本文探讨了机器学习模型在实际应用中遭遇的数据偏移问题,比较了近期领域泛化与公正分类研究中一些最有前途的目标。根据我们的理论分析和实证评估,我们得出结论,模型选择过程需要根据观察到的数据、纠正因素和数据生成过程的结构进行认真考虑的指导。
Jun, 2021
本篇论文提出了基于自监督学习思想的分布式鲁棒性解释,针对黑盒模型的应用,解释在数据分布变化时的可靠性,并通过广泛的实验验证了该方法对模型的鲁棒性提升。
Mar, 2023
知识蒸馏将大模型的知识转移到小模型上,近年来取得了显著成就。然而,对于知识蒸馏在分布转移方面的机制,研究还很少。本文通过在转移情况下重新构建目标函数,重新思考了知识蒸馏的范式。在真实情景下,我们提出了一个统一而系统的框架,对两个常见的分布转移包括多样性和相关性转移进行了知识蒸馏的基准测试。评估基准涵盖了来自算法、数据驱动和优化角度的 30 多种方法,用于五个基准数据集。总体上,我们对学生模型进行了大量实验。我们揭示了在分布转移下教学性能的有趣观察结果;尤其是,在许多情况下,复杂的算法和数据增强只能带来有限的收益。
Dec, 2023