本篇论文综述了最新的基于 Transformer 模型的长文本建模技术,其中介绍了长文本模型的定义、如何满足输入长度限制和改进 Transformer 的架构以有效扩展最大上下文长度,以及如何适应长文本的特殊特性。并且描述了长文本建模的四个典型应用,并探讨了未来的研究方向。
Feb, 2023
本文提供了一个广泛的长文本分类的基准测试方法,包括二分类、多分类、多标签分类任务,研究发现更复杂的模型并不总是优于简单的基准模型,并且在不同数据集上表现不稳定,因此需要未来研究考虑更全面的基准模型和数据集以开发出更为稳健的模型。
Mar, 2022
本研究使用稀疏注意力机制和分层变换器方法,对基于 Transformers 的长文本分类进行比较,探讨了四个文本分类数据集,并得出了实际应用此方法的实用建议。
Apr, 2022
研究长文档匹配的最新进展集中在使用基于 transformer 的模型进行长文档编码和匹配,本文实证演示了相对于 transformer-based 模型,使用简单的神经模型(如前馈网络和 CNN)和简单的嵌入(如 GloVe 和 Paragraph Vector)在文档匹配任务中的更高效性。
研究长文档分类任务使用标准的机器学习方法(如 Naive Bayes 和 BERT),在六个文本分类数据集上进行了广泛的算法比较研究,发现 BERT 模型性能稳定良好,但基于传统机器学习模型(如 BiLSTM 和 GloVe)也能在大多数数据集上表现出色,只在较困难的数据集(如 IMDB 情感分析)中对性能提升明显。
Nov, 2021
通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合,结合文档长度线性扩展的小的注意力层,我们得到了与当前最先进模型竞争力的结果,特别是在冻结底层 transformers 的情况下,有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。
Jul, 2023
本研究证明了一种简单可扩展的方法,使用已有的 Transformer 模型(如 BERT)处理长文本在 ICD 编码上的表现明显优于以往,比 CNN-based 模型更为出色。
Nov, 2022
本文研究使用分层传递学习方法进行长文本分类,通过将数据分成块,然后传递到使用双向编码器表示的预训练通用句子编码器和 BERT 的基本模型,然后使每个块的输出表示通过包括 LSTMs 或 CNNs 的浅层神经网络来分类文本数据。使用此扩展方法对 6 个基准数据集进行评估,同时与多个深度学习算法进行比较,其中 Longformer 方法在大多数数据集上始终表现良好。
Jan, 2022
本文综述了深度神经网络在自然语言处理中的应用,重点关注长文本处理的挑战和解决方案,包括文档分类、摘要生成和情感分析等任务,同时列举了当前用于研究的公开数据集。
May, 2023
本研究探讨了两个方向来处理长篇的法律文本:一是修改从 LegalBERT 启动的 Longformer 以处理更长的文本,二是修改 LegalBERT 以使用 TF-IDF 表示。结果发现,第一个方法表现最佳,在 LexGLUE 中胜过 LegalBERT 的分层版本;第二个方法计算效率更高,而且仍然优于 TF-IDF 特征的线性 SVM。