模型融合是否有助于长文档分类的 Transformer？实证研究

Jul, 2023

模型融合是否有助于长文档分类的 Transformer？实证研究

Can Model Fusing Help Transformers in Long Document Classification? An Empirical Study

Damith Premasiri, Tharindu Ranasinghe, Ruslan Mitkov

TL;DR通过比较模型融合与 BERT 和 Longformer 架构的结果，研究探讨了在长文档分类中采用模型融合的方法。

Abstract

text classification is an area of research which has been studied over the years in Natural Language Processing (nlp). Adapting nlp to mul

text classification nlp long document classification transformer models model fusing

发现论文，激发创造

使用 Transformer 模型对长文本进行建模的调查

本篇论文综述了最新的基于 Transformer 模型的长文本建模技术，其中介绍了长文本模型的定义、如何满足输入长度限制和改进 Transformer 的架构以有效扩展最大上下文长度，以及如何适应长文本的特殊特性。并且描述了长文本建模的四个典型应用，并探讨了未来的研究方向。

Feb, 2023

使用 Transformer 高效分类长文档

本文提供了一个广泛的长文本分类的基准测试方法，包括二分类、多分类、多标签分类任务，研究发现更复杂的模型并不总是优于简单的基准模型，并且在不同数据集上表现不稳定，因此需要未来研究考虑更全面的基准模型和数据集以开发出更为稳健的模型。

Mar, 2022

重新审视基于 Transformer 的长文档分类模型

本研究使用稀疏注意力机制和分层变换器方法，对基于 Transformers 的长文本分类进行比较，探讨了四个文本分类数据集，并得出了实际应用此方法的实用建议。

Apr, 2022

基于 Transformer 的长文档匹配模型：挑战与实证分析

研究长文档匹配的最新进展集中在使用基于 transformer 的模型进行长文档编码和匹配，本文实证演示了相对于 transformer-based 模型，使用简单的神经模型（如前馈网络和 CNN）和简单的嵌入（如 GloVe 和 Paragraph Vector）在文档匹配任务中的更高效性。

Feb, 2023

长文档分类的比较研究

研究长文档分类任务使用标准的机器学习方法（如 Naive Bayes 和 BERT），在六个文本分类数据集上进行了广泛的算法比较研究，发现 BERT 模型性能稳定良好，但基于传统机器学习模型（如 BiLSTM 和 GloVe）也能在大多数数据集上表现出色，只在较困难的数据集（如 IMDB 情感分析）中对性能提升明显。

Nov, 2021

基于预训练句子嵌入的长文档分类的注意力机制

通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合，结合文档长度线性扩展的小的注意力层，我们得到了与当前最先进模型竞争力的结果，特别是在冻结底层 transformers 的情况下，有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。

Jul, 2023

BERT 面向长文档的案例研究：自动化 ICD 编码

本研究证明了一种简单可扩展的方法，使用已有的 Transformer 模型（如 BERT）处理长文本在 ICD 编码上的表现明显优于以往，比 CNN-based 模型更为出色。

Nov, 2022

基于层级神经网络的长文档分类方法

本文研究使用分层传递学习方法进行长文本分类，通过将数据分成块，然后传递到使用双向编码器表示的预训练通用句子编码器和 BERT 的基本模型，然后使每个块的输出表示通过包括 LSTMs 或 CNNs 的浅层神经网络来分类文本数据。使用此扩展方法对 6 个基准数据集进行评估，同时与多个深度学习算法进行比较，其中 Longformer 方法在大多数数据集上始终表现良好。

Jan, 2022

长文本神经自然语言处理技术现状综述

本文综述了深度神经网络在自然语言处理中的应用，重点关注长文本处理的挑战和解决方案，包括文档分类、摘要生成和情感分析等任务，同时列举了当前用于研究的公开数据集。

May, 2023

使用预训练变形器处理长法律文件：修改 LegalBERT 和 Longformer

本研究探讨了两个方向来处理长篇的法律文本：一是修改从 LegalBERT 启动的 Longformer 以处理更长的文本，二是修改 LegalBERT 以使用 TF-IDF 表示。结果发现，第一个方法表现最佳，在 LexGLUE 中胜过 LegalBERT 的分层版本；第二个方法计算效率更高，而且仍然优于 TF-IDF 特征的线性 SVM。

Nov, 2022