Feb, 2024

警告标签不发两次:预算有限时,数量胜过质量的二元分类器比较

TL;DR我们研究了如何在给定一个模糊标签的预算的情况下,比较两个二元分类器的准确性。我们证明了一个与常规智慧相悖的定理,即如果目标是确定两个分类器中的更好者,则在更多样本上收集单个标签是最好的。我们的结果是基于 Cramér 定理的非平凡应用得出的,这是大偏差理论中的一项基本理论。我们还讨论了我们的工作对机器学习基准设计的影响,这颠覆了一些历史悠久的建议。此外,我们的结果提供了比 Hoeffding 界更优秀的样本大小界限。