使用一对多分类器的校准学习进行推迟
学习推迟(L2D)框架通过将困难决策交给人类专家,实现了自主系统的安全性和稳健性。我们在此工作中缓解了每个专家都是明确识别的假设,并设计了一个能够应对测试时从未遇到过的专家的 L2D 系统。我们使用元学习来实现这一目标,同时考虑了基于优化和基于模型的变种。通过给出用于描述当前可用专家的小的上下文集合,我们的框架可以快速适应其推迟策略。对于基于模型的方法,我们采用了一种注意机制,可以查找上下文集合中与给定测试点相似的点,从而更精确地评估专家的能力。在实验中,我们在图像识别、交通标志检测和皮肤病病变诊断基准上验证了我们的方法。
Mar, 2024
学员分享学习(L2D)旨在改善人工智能协作系统,通过学习如何将决策推迟到人类在更可能比机器学习分类器更准确时。现有的 L2D 研究忽视了阻碍其实际应用的现实系统的关键要素,即:i)忽略了具有不同成本的类型 1 错误和类型 2 错误的成本敏感场景;ii)要求对训练数据集的每个实例进行并发的人类预测;iii)不处理人类工作能力的限制。为了解决这些问题,我们提出了成本和能力约束下的推迟框架(DeCCaF)。DeCCaF 是一种新的 L2D 方法,采用监督学习来建模人类错误的概率,满足更宽松的数据要求(每个实例只有一个专家预测),并使用约束编程来在工作负载限制下全局最小化错误成本。我们在一系列具有不同 9 名合成欺诈分析师团队和个体工作能力限制的成本敏感型欺诈检测场景中测试了 DeCCaF。结果表明,我们的方法在各种场景中比基准方案表现显著好,平均减少了 8.4% 的错误分类成本。
Mar, 2024
我们提出了一个框架,在混合机器学习模型和专家预测的预测系统中,同时学习分类器和推迟系统,通过推迟到一个或多个人类专家来确保较低置信度的分类器的准确性和公平性。测试结果表明,我们的学习框架显著提高了最终预测的准确性和公平性,而且在一个实际的内容审核数据集上也优于传统基线。
Feb, 2021
本文提出了一个三步方法,可以使用一个较小的人类专家预测集训练学习延迟算法。该方法涉及使用具有地面真实标签的嵌入模型进行训练,然后进行专家能力预测器模型的训练,生成人工专家预测。 我们在两个公共数据集上评估了我们的方法,并展示了即使对每个类别只有少量的专家预测,这些算法也能超过单独使用人类专家和人工智能的性能。
Apr, 2023
通过学习让机器学习分类器在更准确的专家存在时推迟决策,可以提高安全性和性能。本研究证明了以先前文献中代理损失的对称性为原因,而不是 softmax 本身,导致了未校准和无界估计的问题,并提出了一种新颖的统计一致的基于非对称 softmax 的替代损失函数,该方法可以产生有效的估计结果。我们进一步分析了我们方法的非渐近特性,并在基准数据集上验证了其性能和校准性。
Nov, 2023
通过一个包含自动模型和外部决策者的两阶段框架,本文探讨了多个决策者(自动化和人类)之间的相互作用如何影响算法的开发。提出了 “学习推迟” 这一概念,通过考虑其他参与者的影响因素,将拒绝学习推广。结果表明,这种方法可以使系统的准确性和公正性得到显著提高,即使对于不一致或有偏见的用户。
Nov, 2017
我们提出了一项关于使用多个专家进行学习推迟的代理损失和算法的研究,并证明了这些代理损失从强大的 $H$- 一致性上获益。我们通过几个实际代理损失的例子阐述了分析的应用,并给出了明确的保证。虽然这项工作的主要焦点是理论分析,但我们还报告了在 SVHN 和 CIFAR-10 数据集上的若干实验结果。
Oct, 2023
本文提出了一种新的概念 —— 决策校准,指预测分布与真实分布在一组决策者下是 “不可区分的”。在选择有界行动的决策者的情况下,作者设计了一种重新校准算法,其样本复杂度多项式时间,并在皮肤病和 ImageNet 分类等领域中验证了该算法的有效性。
Jul, 2021