Jun, 2024

标准迷蒙含义:关于使用标准数据集的明智立场

TL;DR标准数据集的标签与所得类别的匹配度是影响机器学习模型信任度的关键因素,通过采用基于实践的理论和可视化等评估方法,我们证明了对于 20 个新闻组数据集和 MNIST 数据集,标准数据集的标签可能是不准确的,而 MNIST 数据集则表明了其标签的准确性,因此数据集的标准化与用例、派生类别和标签的匹配度密切相关,对于学习有意义的抽象和提高机器学习模型的信任度是必要的。