Gzip 与词袋模型在 KNN 文本分类中的对比
在计算机视觉中,深度学习网络已成为行业和研究领域的事实标准;然而,在自然语言处理领域的最新发展表明,在一些领域中,具有强归纳偏差的无参数模型可以作为计算成本更低、更简单的替代选择。我们提出了一种用于二进制图像分类的模型:最近邻分类器与通用压缩工具 Gzip 相结合。我们对其进行测试并与 Resnet、EfficientNet 和 Mobilenet 等流行的深度学习网络进行比较,结果显示其在 few-shot 情景下能够实现更高的准确性并且利用的空间显著减少,达到了数量级的差异。因此,我们认为这突显了在 few-shot 情景中具有更强归纳偏差的模型的潜力。
Jan, 2024
本文提出了一种使用 n-grams 的 BOW 模型,通过调用 Skip-gram 模型快速获得单词向量表示并将其平均以获得 n-grams 的表征,从而在低维度空间中为所有 n-grams 维护了相同的语义信息,使用 K-means 聚类将语义概念分组以大大减少特征数量,最终展示了在情感分类任务中胜过 LSA 和 LDA,与传统的 BOW 模型相比,具有更少的特征但类似的结果。
Dec, 2014
本文介绍了一种用于文本分类的简单高效的基线方法 fastText,在准确性方面通常与深度学习分类器相媲美,但在训练和评估方面快了数个数量级。我们用标准的多核 CPU 可以在不到十分钟的时间内对十亿多个单词进行训练,并在不到一分钟的时间内对 312K 种类别的 50 万个句子进行分类。
Jul, 2016
我们研究了文本的语义压缩,其中文本中包含的含义被传达给源编码器,例如用于分类。我们提出了一种利用句子嵌入和语义失真度量来保持含义的语义量化和压缩方法。我们的结果表明,与语义不可知基线相比,所提出的语义方法在所需消息表示的比特数量方面节省大量资源,仅以非常适度的准确性损失为代价。我们比较了所提出方法的结果,并观察到语义量化所实现的资源节省可以通过语义聚类进一步增强。重要的是,我们观察到所提出方法的普适性,其在许多基准文本分类数据集上都获得了出色的结果,涵盖了多样化的环境。
Sep, 2023
本文提出了一种改进的 kNN 算法,针对文本分类中常见的类别样本分布不均衡问题,使用不同的邻居数来分类。在文本分类实验中,相比传统方法,该方法对参数 k 的敏感度更低,能够更好地识别属于小类的文档。
Jun, 2003
本研究发现,在归纳式文本分类中,使用 Bag-of-Words 的宽 MLP 模型优于最新的基于图的模型 TextGCN 和 HeteGCN,并与 HyperGAT 相当,而基于序列的 BERT 和 DistilBERT 模型优于所有最新的模型。
Sep, 2021
通过综合文献和自行实验,我们发现在单标签和多标签分类任务中,与精调的语言模型和 MLP 等标准机器学习方法相比,基于图的方法效果不如人意,甚至有时比基于词袋的 MLP 方法表现还要差,这进一步挑战了过去几年中新基于图方法的开发和它们在这一领域中的实际价值,并证实了预先训练的语言模型依然是文本分类中最先进的方法。因此,未来的文本分类研究需要仔细测试标准的机器学习算法如 MLP,以更好地评估其真正的科学进展。
Apr, 2022
本文表明,基于词袋 (BoW) 的简单基线学习到出人意料的知识图谱嵌入。通过将知识库补全和问题回答转化为监督分类问题,我们观察到建模实体和关系的共现可以在几分钟的培训时间内获得最先进的性能,使用开源库 fastText。
Oct, 2017
文本分类与特征加权方法,包括 N-Grams 和 TF-IDF,使用随机森林分类器实现最高的准确度(93.81%),精确度(94.20%),召回率(93.81%)和 F1-score(91.99%)值。
Aug, 2023