长文档分类的比较研究

Nov, 2021

Comparative Study of Long Document Classification

Vedangi Wagh, Snehal Khandve, Isha Joshi, Apurva Wani, Geetanjali Kale...

TL;DR研究长文档分类任务使用标准的机器学习方法（如 Naive Bayes 和 BERT），在六个文本分类数据集上进行了广泛的算法比较研究，发现 BERT 模型性能稳定良好，但基于传统机器学习模型（如 BiLSTM 和 GloVe）也能在大多数数据集上表现出色，只在较困难的数据集（如 IMDB 情感分析）中对性能提升明显。

Abstract

The amount of information stored in the form of documents on the internet has been increasing rapidly. Thus it has become a necessity to organize and maintain these documents in an optimum manner. text classification algorithms study the complex relationships between words in a text an

text classification machine learning naive bayes bert long documents

发现论文，激发创造

使用 Transformer 高效分类长文档

本文提供了一个广泛的长文本分类的基准测试方法，包括二分类、多分类、多标签分类任务，研究发现更复杂的模型并不总是优于简单的基准模型，并且在不同数据集上表现不稳定，因此需要未来研究考虑更全面的基准模型和数据集以开发出更为稳健的模型。

Mar, 2022

基于层级神经网络的长文档分类方法

本文研究使用分层传递学习方法进行长文本分类，通过将数据分成块，然后传递到使用双向编码器表示的预训练通用句子编码器和 BERT 的基本模型，然后使每个块的输出表示通过包括 LSTMs 或 CNNs 的浅层神经网络来分类文本数据。使用此扩展方法对 6 个基准数据集进行评估，同时与多个深度学习算法进行比较，其中 Longformer 方法在大多数数据集上始终表现良好。

Jan, 2022

文本分类算法综述

本研究讨论了文本分类算法的概述，包括不同的文本特征提取、降维方法、现有算法和技术、评估方法，并探讨了每种技术的限制和在实际问题中的应用。

Apr, 2019

BERT 与传统机器学习文本分类的比较

本文通过实验测试，比较机器学习中经典的 TF-IDF 法与 BERT 模型在 NLP 任务中的表现，并为使用 BERT 模型提供了实证支持，结果表明 BERT 模型在 NLP 问题中表现更优秀、更独立。

May, 2020

利用 BERT 语言模型进行阿拉伯语长文档分类

本文针对大量阿拉伯文文档分类问题，提出了两种简单而有效的机器学习模型，并对比了 RoBERT 和 Longformer 两个模型在不同数据集上的结果，结果显示我们的模型表现更优秀。

May, 2023

重新审视基于 Transformer 的长文档分类模型

本研究使用稀疏注意力机制和分层变换器方法，对基于 Transformers 的长文本分类进行比较，探讨了四个文本分类数据集，并得出了实际应用此方法的实用建议。

Apr, 2022

模型融合是否有助于长文档分类的 Transformer？实证研究

通过比较模型融合与 BERT 和 Longformer 架构的结果，研究探讨了在长文档分类中采用模型融合的方法。

Jul, 2023

DocBERT：文件分类的 BERT 模型

本研究使用 BERT 进行文档分类，并展示出其在四个流行数据集上的最新成果。为了解决 BERT 推理的计算开销，研究者提出使用知识蒸馏技术，将 BERT 的知识转移到小型双向 LSTM 中，并使用 30 倍更少的参数达到了 BERT-base 相当的性能。该研究的主要贡献在于提高了基线水平，为未来的工作提供了基础。

Apr, 2019

文本分类：深度学习方法的视角

本文介绍基于深度学习的文本分类算法，包括文本分类任务所需的重要步骤，如特征提取、特征降维和评估策略与方法，并对不同的深度学习文本分类方法进行比较和总结。

Sep, 2023

基于深度学习的文本分类：综述

本研究综合评述了 150 多种基于深度学习的文本分类模型，包括情感分析，新闻分类，问答和自然语言推理，并讨论了它们的技术贡献、相似性和优势，同时提供了 40 多个流行数据集的概述。最后，我们对不同深度学习模型在流行基准测试上的性能进行了定量分析，并讨论了未来的研究方向。

Apr, 2020