FACTS:先放大相关性,再切片发现偏差
本文研究深度神经网络中数据集偏差对任务的影响。通过具体分析特征和标签之间的虚假相关性的来源,本文提出了一种训练策略,即通过量化偏置的程度来调整偏置示例的权重,以减少模型过度依赖数据集偏差的情况,并在 QM 和 NLI 任务上得到了表现的提高。
May, 2022
本研究探讨了在神经影像学中处理数据集偏差的方法,通过结合 17 项研究的 35320 个磁共振成像脑图像来研究偏差,并提出数据集谐波化的方法以消除偏差及控制混淆因素。
Feb, 2020
机器学习中的 slice discovery algorithm 对于模型表现下降等问题提供了一种新方法,相关的使用者研究表明这种方法比 naïve baseline 更好,但是在假设形成的环节上仍然存在挑战,因此在设计和评估新的工具时需要关注使用者。
Jun, 2023
该研究提出了一个交互式框架 Slice Finder,使用统计技术找到可解释的子集去诊断模型的问题,应用包括识别模型公平性和欺诈检测等。
Jul, 2018
本文介绍了一种新的通过去相关化敏感特征和标签之间的因果效应来缓解模型偏见的方法 FITNESS,使用多目标优化平衡性能和公平性,并在 8 个基准测试中与 7 种现有的方法进行比较。结果表明,FITNESS 在提高模型公平性的同时,保持了模型的性能,并在 96.72%的情况下优于已有的所有方法。
May, 2023
使用 Slice Discovery Methods (SDMs) 鉴别机器学习模型中的性能差异及其与患者群体之间的相互作用,并提出性别差异导致观察到的分类性能差距的解释。
Jun, 2024
本文介绍了一种 “发现,解释,改进” 的框架,以系统研究片段检测模型在自然语言处理中的量化评估,准确发现高错误率的数据点,提高模型性能。
Nov, 2022
本文提出了基于切片的学习方法,通过划分关键数据子集和引入注意力机制来针对性地提高机器学习模型在关键数据子集上的性能表现。在跨越语言理解、计算机视觉和生产规模工业系统的数据集上,该方法在保持参数有效性的同时,在切片和总体 F1-score 上分别提高 19.0 和 4.6 个百分点。
Sep, 2019
本文提出了利用切片优化数据采集的方法 Slice Tuner,通过维护学习曲线并使用凸优化来选择不同切片的数据量,以便在保证准确性和公平性的同时优化模型。在使用众包数据采集的真实数据集上评估了 Slice Tuner,并证明了其显著优于传统基线算法。
Mar, 2020