基于层级神经网络的长文档分类方法

ICMLJan, 2022

基于层级神经网络的长文档分类方法

Hierarchical Neural Network Approaches for Long Document Classification

Snehal Khandve, Vedangi Wagh, Apurva Wani, Isha Joshi, Raviraj Joshi

TL;DR本文研究使用分层传递学习方法进行长文本分类，通过将数据分成块，然后传递到使用双向编码器表示的预训练通用句子编码器和 BERT 的基本模型，然后使每个块的输出表示通过包括 LSTMs 或 CNNs 的浅层神经网络来分类文本数据。使用此扩展方法对 6 个基准数据集进行评估，同时与多个深度学习算法进行比较，其中 Longformer 方法在大多数数据集上始终表现良好。

Abstract

text classification algorithms investigate the intricate relationships between words or phrases and attempt to deduce the document's interpretation. In the last few years, these algorithms have progressed tremendously.

text classification transformer architecture hierarchical transfer learning universal sentence encoder bert

发现论文，激发创造

层级 Transformer 用于长文档分类

该研究介绍了如何通过引入基于循环层或其他 Transformer 的单输出层对长文本进行 BERT 模型的微调，成功将其应用于客户电话满意度预测和话题分类任务中，并在两个任务中取得了显著的改进。

Oct, 2019

重新审视基于 Transformer 的长文档分类模型

本研究使用稀疏注意力机制和分层变换器方法，对基于 Transformers 的长文本分类进行比较，探讨了四个文本分类数据集，并得出了实际应用此方法的实用建议。

Apr, 2022

长文档分类的比较研究

研究长文档分类任务使用标准的机器学习方法（如 Naive Bayes 和 BERT），在六个文本分类数据集上进行了广泛的算法比较研究，发现 BERT 模型性能稳定良好，但基于传统机器学习模型（如 BiLSTM 和 GloVe）也能在大多数数据集上表现出色，只在较困难的数据集（如 IMDB 情感分析）中对性能提升明显。

Nov, 2021

段落和文档的分层神经自编码器

该论文探索了自然语言生成的一项重要任务，并通过训练 LSTM 自动编码器来实现对多句段落的保留和重构，评估结果表明神经模型能够以一种保存句法、语义和语篇连贯性的方式对文本进行编码。

Jun, 2015

HiPool：基于图神经网络对长文档建模

本文提出基于图网络的方法来处理长序列的自然语言处理问题，在新的基准测试中，该方法在长序列数据集中表现出比序列模型更好的性能和可扩展性。

May, 2023

阅读、标记和总结：基于层次神经语义编码器的方法

本文提出了一种基于文档精华提取的文本摘要方法，并通过引入语言因素和改进神经网络如 LSTMs 和 Neural Semantic Encoders，利用自我强化学习模型进一步提高了文本摘要的质量，实现并超越了文本摘要领域的最佳性能，其中基于分层 NSE 模型的 ROUGE 值提升近 4 个百分点。

Oct, 2019

语言模型预训练用于层次文档表示

从无标注数据中预训练了一种能够包括来自整个文档的上下文信息的分层文档表示，包括定长的句子 / 段落表示，并应用于文档分割、文档级问答和抽取式文档摘要等方面取得了有效结果。

Jan, 2019

一种基于句子级分层 BERT 模型的有限标记数据文档分类方法

本研究说明了一种基于层次 BERT 模型（HBM）的长文本分类方法，其可以在有限的标记实例数量下实现比现有技术更高的性能，并且可以被用来作为长文本解释的有用工具。

Jun, 2021

使用分层学习生成长源序列

本研究设计并研究了一种新的分层注意力 Transformer 架构（HAT），在几个序列到序列任务中优于标准 Transformer，包括在 PubMed、arXiv、CNN/DM、SAMSum 和 AMI 上的四个摘要任务中取得了最新的 ROUGE 分数。该架构在 WMT20 英文到德文翻译任务中优于文档级机器翻译基线，并通过可视化分层编解码器注意力来研究了分层层次的理解，最后研究了编码器预训练上的分层学习并分析了其在分类任务上的性能。

Apr, 2021

基于预训练句子嵌入的长文档分类的注意力机制

通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合，结合文档长度线性扩展的小的注意力层，我们得到了与当前最先进模型竞争力的结果，特别是在冻结底层 transformers 的情况下，有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。

Jul, 2023