高效文本分类的诀窍
本文提出了一种有效的弱监督分类方法 FastClass,它使用密集文本表示从外部无标签语料库中检索与类相关的文档,并选择最优子集来训练分类器,相比关键词驱动方法,我们的方法对初始类描述的依赖性更低且训练速度更快,实验证明在广泛的分类任务上,该方法的分类准确性通常优于关键词驱动模型并且训练速度对比关键词驱动方法快得多。
Dec, 2022
本文旨在强调将简单的基线方法与先进的模型(如 BERT)一起运行以获得最佳结果的重要性和有效性。实验结果表明当应用正确时,先进模型的表现才会最佳,对于许多文本数据,线性分类器等简单基线方法仍然具有竞争性,高效稳定。
Jun, 2023
本文提出了一种基于多模态的深度学习框架,用于短文本多类别分类,针对于极小数据集,使用了 DISTILBERT 来获取上下文敏感的动态词向量,并取得了在精度、召回率、准确率和 F1 分数上与现有最优方法相同的性能,同时模型体积更小,可以在移动设备上更快、更轻地部署。
Jun, 2022
提出一种通用且可解释的学习框架,以构建健壮的文本分类模型,在测试时间预算限制下实现与完整模型可比的准确性。该方法学习选择器来识别预测任务相关的单词,并将其传递给分类器进行处理。选择器与分类器一起进行训练,并直接学习与分类器相结合。我们进一步提出了一种数据聚合方案,以提高分类器的鲁棒性。我们的学习框架很普遍,可以与任何类型的文本分类模型结合使用。在真实数据上,我们展示了所提出的方法提高了给定分类器的性能,并在准确性性能稍微降低的情况下加快了模型的速度。
Aug, 2018
本文提供了一个广泛的长文本分类的基准测试方法,包括二分类、多分类、多标签分类任务,研究发现更复杂的模型并不总是优于简单的基准模型,并且在不同数据集上表现不稳定,因此需要未来研究考虑更全面的基准模型和数据集以开发出更为稳健的模型。
Mar, 2022
本研究探讨了在低端硬件上使用固定语言模型为训练文本分类网络提供有效性的可行性,将语言模型与 CNN 构架相结合,并在 8 个数据集上进行了综合基准测试,覆盖了话题、情感和风格的单标签和多标签分类。我们的研究提出了一系列权衡,结论是,在某些情况下,不微调语言模型能够在更快的训练时间内具有竞争力的效果,并且只需要微调的内存的四分之一。
May, 2023
本研究综合评述了 150 多种基于深度学习的文本分类模型,包括情感分析,新闻分类,问答和自然语言推理,并讨论了它们的技术贡献、相似性和优势,同时提供了 40 多个流行数据集的概述。最后,我们对不同深度学习模型在流行基准测试上的性能进行了定量分析,并讨论了未来的研究方向。
Apr, 2020
研究长文档分类任务使用标准的机器学习方法(如 Naive Bayes 和 BERT),在六个文本分类数据集上进行了广泛的算法比较研究,发现 BERT 模型性能稳定良好,但基于传统机器学习模型(如 BiLSTM 和 GloVe)也能在大多数数据集上表现出色,只在较困难的数据集(如 IMDB 情感分析)中对性能提升明显。
Nov, 2021