Jul, 2023

Gzip 与词袋模型在 KNN 文本分类中的对比

TL;DR压缩距离的有效性在基于 KNN 的文本分类(gzip)中最近引起了很多关注。在这篇论文中,我们展示了使用更简单的方法可能可以实现类似或更好的效果,而文本压缩可能并不是必要的。实际上,我们发现简单的词袋匹配可以实现类似或更好的准确性,并且更高效。