Gzip 与词袋模型在 KNN 文本分类中的对比

Jul, 2023

Gzip 与词袋模型在 KNN 文本分类中的对比

Gzip versus bag-of-words for text classification with KNN

Juri Opitz

TL;DR压缩距离的有效性在基于 KNN 的文本分类（gzip）中最近引起了很多关注。在这篇论文中，我们展示了使用更简单的方法可能可以实现类似或更好的效果，而文本压缩可能并不是必要的。实际上，我们发现简单的词袋匹配可以实现类似或更好的准确性，并且更高效。

Abstract

The effectiveness of compression distance in knn-based text classification ('gzip') has recently garnered lots of attention. In this note,

compression distance knn-based text classification gzip bag-of-words matching efficiency

发现论文，激发创造

Gzip 用于二进制图像分类的强归纳偏差

在计算机视觉中，深度学习网络已成为行业和研究领域的事实标准；然而，在自然语言处理领域的最新发展表明，在一些领域中，具有强归纳偏差的无参数模型可以作为计算成本更低、更简单的替代选择。我们提出了一种用于二进制图像分类的模型：最近邻分类器与通用压缩工具 Gzip 相结合。我们对其进行测试并与 Resnet、EfficientNet 和 Mobilenet 等流行的深度学习网络进行比较，结果显示其在 few-shot 情景下能够实现更高的准确性并且利用的空间显著减少，达到了数量级的差异。因此，我们认为这突显了在 few-shot 情景中具有更强归纳偏差的模型的潜力。

Jan, 2024

基于 N-gram 的文本低维度表示方法用于文档分类

本文提出了一种使用 n-grams 的 BOW 模型，通过调用 Skip-gram 模型快速获得单词向量表示并将其平均以获得 n-grams 的表征，从而在低维度空间中为所有 n-grams 维护了相同的语义信息，使用 K-means 聚类将语义概念分组以大大减少特征数量，最终展示了在情感分类任务中胜过 LSA 和 LDA，与传统的 BOW 模型相比，具有更少的特征但类似的结果。

Dec, 2014

高效文本分类的诀窍

本文介绍了一种用于文本分类的简单高效的基线方法 fastText，在准确性方面通常与深度学习分类器相媲美，但在训练和评估方面快了数个数量级。我们用标准的多核 CPU 可以在不到十分钟的时间内对十亿多个单词进行训练，并在不到一分钟的时间内对 312K 种类别的 50 万个句子进行分类。

Jul, 2016

FastText.zip：压缩文本分类模型

利用乘积量化的方法实现紧凑型文本分类模型，适应存储限制的环境，并通过实验获得更好地平衡准确性和内存占用的性能表现。

Dec, 2016

语义文本压缩分类

我们研究了文本的语义压缩，其中文本中包含的含义被传达给源编码器，例如用于分类。我们提出了一种利用句子嵌入和语义失真度量来保持含义的语义量化和压缩方法。我们的结果表明，与语义不可知基线相比，所提出的语义方法在所需消息表示的比特数量方面节省大量资源，仅以非常适度的准确性损失为代价。我们比较了所提出方法的结果，并观察到语义量化所实现的资源节省可以通过语义聚类进一步增强。重要的是，我们观察到所提出方法的普适性，其在许多基准文本分类数据集上都获得了出色的结果，涵盖了多样化的环境。

Sep, 2023

一种改进的 k 最近邻算法用于文本分类

本文提出了一种改进的 kNN 算法，针对文本分类中常见的类别样本分布不均衡问题，使用不同的邻居数来分类。在文本分类实验中，相比传统方法，该方法对参数 k 的敏感度更低，能够更好地识别属于小类的文档。

Jun, 2003

文本分类中的词袋、图形和序列：质疑文本图和广泛 MLP 的必要性和惊人强度

本研究发现，在归纳式文本分类中，使用 Bag-of-Words 的宽 MLP 模型优于最新的基于图的模型 TextGCN 和 HeteGCN，并与 HyperGAT 相当，而基于序列的 BERT 和 DistilBERT 模型优于所有最新的模型。

Sep, 2021

单标签和多标签文本分类：词袋、序列、图、层次结构，我们真正取得了多少进展？

通过综合文献和自行实验，我们发现在单标签和多标签分类任务中，与精调的语言模型和 MLP 等标准机器学习方法相比，基于图的方法效果不如人意，甚至有时比基于词袋的 MLP 方法表现还要差，这进一步挑战了过去几年中新基于图方法的开发和它们在这一领域中的实际价值，并证实了预先训练的语言模型依然是文本分类中最先进的方法。因此，未来的文本分类研究需要仔细测试标准的机器学习算法如 MLP，以更好地评估其真正的科学进展。

Apr, 2022

知识图谱嵌入的快速线性模型

本文表明，基于词袋 (BoW) 的简单基线学习到出人意料的知识图谱嵌入。通过将知识库补全和问题回答转化为监督分类问题，我们观察到建模实体和关系的共现可以在几分钟的培训时间内获得最先进的性能，使用开源库 fastText。

Oct, 2017

TF-IDF 特征加权方法的比较研究及其在非结构化数据集上的分析

文本分类与特征加权方法，包括 N-Grams 和 TF-IDF，使用随机森林分类器实现最高的准确度（93.81%），精确度（94.20%），召回率（93.81%）和 F1-score（91.99%）值。

Aug, 2023