Feb, 2024

算法性能无假设测试的限制

TL;DR对于限定的数据量,我们研究了算法评估与比较的理论极限,发现在黑盒测试下无法客观评价算法性能,除非可用数据点数远大于样本量。在评估特定训练模型性能方面则较为简单,只需要保留一组验证数据即可。同样地,我们探讨了算法稳定性假设是否足以解决问题,结果发现只有在高稳定性范围内,模型才能基本无差别。最后,我们还针对多个算法的比较问题也得出了类似的理论困难。