Feb, 2024

看到的信息决定了未看到的信息的数量

TL;DR基于训练数据中出现次数相同的类别数量,研究表明预期情况下,一个未知总体中不出现在训练数据中的类别的数据点比例几乎完全由训练数据中出现的类别数量决定。通过优化和遗传算法,发现估计器的均方误差(MSE)较传统的 Good-Turing 估计器要小。