最坏情况分布偏移的决策导向评估
本文研究了模型更新对于算法补救方案的影响,实验证明数据分布的改变和模型升级会导致现有的算法补救方案失效,因此需要重新设计和开发算法补救方案。
Dec, 2020
从信息理论的角度,本文探讨了机器学习模型在实际应用中遭遇的数据偏移问题,比较了近期领域泛化与公正分类研究中一些最有前途的目标。根据我们的理论分析和实证评估,我们得出结论,模型选择过程需要根据观察到的数据、纠正因素和数据生成过程的结构进行认真考虑的指导。
Jun, 2021
本文提出了一种简单的序列工具,用于测试源(训练)和目标(测试)数据分布之间的区别是否导致了风险函数的显著增加,同时忽略良性的变化,且不增加误报率,通过在一系列模拟数据集和真实数据集上的实证研究,证实了该方法的有效性。
Oct, 2021
本研究提出了一种框架来分析各种分布转移,并通过评估19个不同类别的方法,提供了当前最先进方法的整体分析。结果显示,与标准ERM基线相比,预训练和数据扩充(学习或启发式)在许多情况下都具有很大的优势,但不能很好地适应不同的数据集和转移。
Oct, 2021
提出基于最差单元优化的解释方法Group-aware Shift Explanations (GSE),在一系列的表格、语言、以及图像模型中不仅能够维持组群结构,诸如人口统计和分层子人口,同时增强了结果解释的可行性和鲁棒性。
May, 2023
在分布转移的研究中,$Y | X$ -转移最为普遍,我们建立了一个经验测试平台 WhyShift,以评估算法和数据干预对协变量区域的影响,同时也强调未来建立如何处理分布差异的理解对于研究的重要性。
Jul, 2023
我们研究了基于无限时域马尔科夫决策过程的高置信度离策略评估,目标是仅使用预先收集的来自未知行为策略的离线数据建立目标策略值的置信区间。通过创新的统一误差分析,我们共同量化了建模边际化重要性权重的错误以及由抽样引起的统计不确定性这两个估计误差的来源,揭示了先前隐藏的错误权衡问题。通过精心设计的判别函数,我们提出的估计器既能打破错误权衡的限制以获得可能的最紧的置信区间,又能适应分布偏移以保证鲁棒性。我们的方法适用于时间相关的数据,不需要假设任何弱依赖条件,通过利用局部超值/鞅结构。在非线性函数近似设置中,理论上证明了我们的算法具有高效采样、错误鲁棒和可证收敛性。所提方法在合成数据集和OhioT1DM移动健康研究中得到了数值性能的验证。
Sep, 2023
我们的研究探讨了分布偏移程度的更加微妙的评估设置,我们发现模型的稳健性在不同程度的分布偏移下可能相当脆弱和不一致,因此在从有限范围下的评估中得出结论时应更加谨慎。此外,我们观察到大规模预训练模型(如CLIP)对于新颖下游任务的微小分布偏移也很敏感。这表明,尽管预训练表示可以帮助提高内分布性能,但在某些OOD场景中可能对泛化性能产生最小甚至负面影响,如果不正确使用。鉴于这些发现,我们鼓励未来的研究在可能的情况下进行更广泛范围的评估。
Oct, 2023