重新审视基于 Transformer 的长文档分类模型
本文提供了一个广泛的长文本分类的基准测试方法,包括二分类、多分类、多标签分类任务,研究发现更复杂的模型并不总是优于简单的基准模型,并且在不同数据集上表现不稳定,因此需要未来研究考虑更全面的基准模型和数据集以开发出更为稳健的模型。
Mar, 2022
本文研究使用分层传递学习方法进行长文本分类,通过将数据分成块,然后传递到使用双向编码器表示的预训练通用句子编码器和 BERT 的基本模型,然后使每个块的输出表示通过包括 LSTMs 或 CNNs 的浅层神经网络来分类文本数据。使用此扩展方法对 6 个基准数据集进行评估,同时与多个深度学习算法进行比较,其中 Longformer 方法在大多数数据集上始终表现良好。
Jan, 2022
自从发布以来,Transformer 已经在许多领域中进行了革命,从自然语言理解到计算机视觉。然而,自注意力操作的计算复杂性限制了其处理大序列的能力。本文探讨了多种策略,以将基于 Transformer 的模型应用于长篇多页文档的情况。我们引入了两种新的多模态(文本 + 布局)长程模型,它们基于针对长序列的高效 Transformer 实现。长程模型可有效地一次处理整个文档,并且对文档的长度不那么敏感。我们将其与 LayoutLM 进行了比较,LayoutLM 是一种经过调整以适应文档理解并在数百万文档上进行预训练的经典 Transformer。我们进一步提出了 2D 相对注意力偏置,以引导自注意力指向相关的标记,同时不影响模型效率。我们观察到,在信息检索方面,对于多页商业文档,可以在较小的序列上带来小幅性能提升。相对的 2D 注意力在密集文本上对普通和长程模型均有效。
Sep, 2023
通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合,结合文档长度线性扩展的小的注意力层,我们得到了与当前最先进模型竞争力的结果,特别是在冻结底层 transformers 的情况下,有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。
Jul, 2023
本篇论文综述了最新的基于 Transformer 模型的长文本建模技术,其中介绍了长文本模型的定义、如何满足输入长度限制和改进 Transformer 的架构以有效扩展最大上下文长度,以及如何适应长文本的特殊特性。并且描述了长文本建模的四个典型应用,并探讨了未来的研究方向。
Feb, 2023
Longformer 是一种基于 Transformers 的模型,采用能够线性缩放序列长度的自注意力机制,使得处理数千个记号以上的文档变得容易;与先前的一些工作不同的是,Longformer 同时进行了预训练和下游任务的微调,并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外,Longformer 还引入了 Longformer-Encoder-Decoder(LED)以支持长文档的生成序列对序列任务。
Apr, 2020
本篇论文提出了一种新型基于 transformer 的 1D 和 2D 位置感知注意力机制,实验结果表明,该模型在进行长篇文档理解时具有优势,易于基于其他基于 transformer 的架构进行扩展。
Aug, 2022
研究长文档分类任务使用标准的机器学习方法(如 Naive Bayes 和 BERT),在六个文本分类数据集上进行了广泛的算法比较研究,发现 BERT 模型性能稳定良好,但基于传统机器学习模型(如 BiLSTM 和 GloVe)也能在大多数数据集上表现出色,只在较困难的数据集(如 IMDB 情感分析)中对性能提升明显。
Nov, 2021
本研究开发并发布了使用分段编码器,并将其与 Longformer 模型和部分预训练的 HAT 进行比较的完全预训练 HAT 模型,在多个长文档下游分类任务中,我们的最佳 HAT 模型在使用 10-20% GPU 内存的情况下比同等大小的 Longformer 模型更快地处理文档并实现更好的性能。在消融研究中,发现 HAT 在整个模型中进行跨段上下文信息处理比其他配置的早期或晚期跨段上下文处理性能更好。
Oct, 2022