矫正分布偏移解释中的群体不规则性
本研究探讨在数据分布漂移时,机器学习模型的预测性能和模型解释特征如何受影响,以及这些关键指标如何相互关联,发现模型解释任务的建模是检测预测性能变化的更好指标。
Oct, 2022
提出了一个新的任务,数据集说明,通过自然语言自动指出两个图像数据集之间的数据集级分布移动,引入了一个训练 - free 框架 GSCLIP 解决数据集说明任务,采用语言模型生成器基于选择器的生成器集群,极大的促进了数据质量的提升。
Jun, 2022
本文主要探讨机器学习中机器如何学习到能够捕捉输入特征与输出标签之间因果关系的鲁棒性表征,以及在有偏或有限数据集上可能存在的虚假相关性。提出了一种基于最小充分统计量的鲁棒表征和虚假表征的信息理论概念,并基于分组分布式鲁棒优化方法来缓解输入分布偏移的问题,同时通过实验展示该方法在图像和语言任务中具有显著的鲁棒性优势。
Jun, 2021
本文研究了机器学习中的一个重要研究主题:协变量转移。我们表明这个领域的方法都可以归为信息几何的范畴,并且我们提出的方法可以更高效地进行参数搜索和更好地适应数据,结果比现有方法好。
Apr, 2023
本文研究了算法决策中 “解释权利” 的问题,并提出了理论和实证分析,表明模型曲率、训练时的权重衰减参数以及数据集变化的程度是影响解释稳定性的关键因素。
Jun, 2023
介绍了一种新的解释机器学习问题的算法,利用学习到的低维度表示来识别不同群组之间的关键差异,该算法名为全局反事实解释,使用压缩感知技术限制差异保持一致。实验证明这种算法可以较为精确地解释模型,并与数据中的实际模式相匹配。
Mar, 2020
在机器学习任务中,分布偏移是一种常见情况,其表示训练模型使用的数据与实际应用模型的数据不同。本文旨在定义和检测教育环境中的分布偏移,关注标准预测问题,即学习一个以输入序列为输入(预测变量)X=(x_1,x_2,...,x_m) 并生成输出 Y=f (X) 的模型。
May, 2024
在分布转移的研究中,$Y | X$ - 转移最为普遍,我们建立了一个经验测试平台 WhyShift,以评估算法和数据干预对协变量区域的影响,同时也强调未来建立如何处理分布差异的理解对于研究的重要性。
Jul, 2023
提出了一个基于表示学习和样本重加权的误差界,针对因果推断和无监督域自适应问题,在设计转换下减少泛化误差的算法框架,与以往方法相比具有更好的效果并具有渐近一致性。
Feb, 2018
通过模拟实验和真实数据集的实验,研究调查了来自数据和模型属性的解释差异产生的挑战,包括有限样本量、协变量变化、概念变化、遗漏变量偏差以及敏感属性和适当的函数形式的挑战。研究结果表明,解释差异也取决于数据和模型属性,为解释方法设计提供了建议。
Jan, 2024