高效文本分类的诀窍

Jul, 2016

Bag of Tricks for Efficient Text Classification

Armand Joulin, Edouard Grave, Piotr Bojanowski, Tomas Mikolov

TL;DR本文介绍了一种用于文本分类的简单高效的基线方法 fastText，在准确性方面通常与深度学习分类器相媲美，但在训练和评估方面快了数个数量级。我们用标准的多核 CPU 可以在不到十分钟的时间内对十亿多个单词进行训练，并在不到一分钟的时间内对 312K 种类别的 50 万个句子进行分类。

Abstract

This paper explores a simple and efficient baseline for text classification. Our experiments show that our fast text classifier fasttext is often on par with →

text classification fasttext deep learning multicore cpu sentences

发现论文，激发创造

FastClass：一种高效的弱监督文本分类方法

本文提出了一种有效的弱监督分类方法 FastClass，它使用密集文本表示从外部无标签语料库中检索与类相关的文档，并选择最优子集来训练分类器，相比关键词驱动方法，我们的方法对初始类描述的依赖性更低且训练速度更快，实验证明在广泛的分类任务上，该方法的分类准确性通常优于关键词驱动模型并且训练速度对比关键词驱动方法快得多。

Dec, 2022

FastText.zip：压缩文本分类模型

利用乘积量化的方法实现紧凑型文本分类模型，适应存储限制的环境，并通过实验获得更好地平衡准确性和内存占用的性能表现。

Dec, 2016

线性分类器：文本分类中经常被遗忘的基准线

本文旨在强调将简单的基线方法与先进的模型（如 BERT）一起运行以获得最佳结果的重要性和有效性。实验结果表明当应用正确时，先进模型的表现才会最佳，对于许多文本数据，线性分类器等简单基线方法仍然具有竞争性，高效稳定。

Jun, 2023

一种基于多模型的深度学习框架，用于处理不平衡和非常小的数据集进行短文本多分类

本文提出了一种基于多模态的深度学习框架，用于短文本多类别分类，针对于极小数据集，使用了 DISTILBERT 来获取上下文敏感的动态词向量，并取得了在精度、召回率、准确率和 F1 分数上与现有最优方法相同的性能，同时模型体积更小，可以在移动设备上更快、更轻地部署。

Jun, 2022

测试时间预算上的鲁棒文本分类器

提出一种通用且可解释的学习框架，以构建健壮的文本分类模型，在测试时间预算限制下实现与完整模型可比的准确性。该方法学习选择器来识别预测任务相关的单词，并将其传递给分类器进行处理。选择器与分类器一起进行训练，并直接学习与分类器相结合。我们进一步提出了一种数据聚合方案，以提高分类器的鲁棒性。我们的学习框架很普遍，可以与任何类型的文本分类模型结合使用。在真实数据上，我们展示了所提出的方法提高了给定分类器的性能，并在准确性性能稍微降低的情况下加快了模型的速度。

Aug, 2018

使用 Transformer 高效分类长文档

本文提供了一个广泛的长文本分类的基准测试方法，包括二分类、多分类、多标签分类任务，研究发现更复杂的模型并不总是优于简单的基准模型，并且在不同数据集上表现不稳定，因此需要未来研究考虑更全面的基准模型和数据集以开发出更为稳健的模型。

Mar, 2022

在低端硬件上使用语言模型

本研究探讨了在低端硬件上使用固定语言模型为训练文本分类网络提供有效性的可行性，将语言模型与 CNN 构架相结合，并在 8 个数据集上进行了综合基准测试，覆盖了话题、情感和风格的单标签和多标签分类。我们的研究提出了一系列权衡，结论是，在某些情况下，不微调语言模型能够在更快的训练时间内具有竞争力的效果，并且只需要微调的内存的四分之一。

May, 2023

训练文本分类器的顺序算法

通过未分类数据顺序抽样来训练文本分类器可以大大降低所需的训练数据量，提高训练效率。

Jul, 1994

基于深度学习的文本分类：综述

本研究综合评述了 150 多种基于深度学习的文本分类模型，包括情感分析，新闻分类，问答和自然语言推理，并讨论了它们的技术贡献、相似性和优势，同时提供了 40 多个流行数据集的概述。最后，我们对不同深度学习模型在流行基准测试上的性能进行了定量分析，并讨论了未来的研究方向。

Apr, 2020

长文档分类的比较研究

研究长文档分类任务使用标准的机器学习方法（如 Naive Bayes 和 BERT），在六个文本分类数据集上进行了广泛的算法比较研究，发现 BERT 模型性能稳定良好，但基于传统机器学习模型（如 BiLSTM 和 GloVe）也能在大多数数据集上表现出色，只在较困难的数据集（如 IMDB 情感分析）中对性能提升明显。

Nov, 2021