长文分类器中的无监督理性抽取：大海捞针

Mar, 2023

长文分类器中的无监督理性抽取：大海捞针

Finding the Needle in a Haystack: Unsupervised Rationale Extraction from Long Text Classifiers

Kamil Bujel, Andrew Caines, Helen Yannakoudakis, Marek Rei

TL;DR这篇论文针对长篇文本的语言模型，研究了其对 token-level 预测准确性的影响，提出了使用 RoBERTa 分析句子的组合式软注意力架构来提取 plausible rationales 的方法，并发现相比 Longformer 驱动的基准模型，提出的方法在情感分类数据集上表现更优，且运行时间更短。

Abstract

long-sequence transformers are designed to improve the representation of longer texts by language models and their performance on downstream docu

long-sequence transformers language models document-level tasks unsupervised rationale extraction compositional soft attention architecture

发现论文，激发创造

Longformer：长文档转换器

Longformer 是一种基于 Transformers 的模型，采用能够线性缩放序列长度的自注意力机制，使得处理数千个记号以上的文档变得容易；与先前的一些工作不同的是，Longformer 同时进行了预训练和下游任务的微调，并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外，Longformer 还引入了 Longformer-Encoder-Decoder（LED）以支持长文档的生成序列对序列任务。

Apr, 2020

使用分层学习生成长源序列

本研究设计并研究了一种新的分层注意力 Transformer 架构（HAT），在几个序列到序列任务中优于标准 Transformer，包括在 PubMed、arXiv、CNN/DM、SAMSum 和 AMI 上的四个摘要任务中取得了最新的 ROUGE 分数。该架构在 WMT20 英文到德文翻译任务中优于文档级机器翻译基线，并通过可视化分层编解码器注意力来研究了分层层次的理解，最后研究了编码器预训练上的分层学习并分析了其在分类任务上的性能。

Apr, 2021

神经预测的理性化

通过提取文本来生成短而连贯的理由 —— 根据规则确保足以做出准确预测的 —— 以代替不带理由的预测，该方法结合了生成器（分配文本碎片的候选理由）和编码器（用于预测）。从未给予判据，而是让模型符合对规则的要求。本文还在多方面情感分析和问题检索任务中成功验证了此方法。

Jun, 2016

重要信息检索以分类偏好贸易协定的非结构化数据内容

通过嵌入技术减少冗余信息并使用 BERT 进行文本分类，有效提高了长文本的分类性能，同时大大降低了计算复杂度。这一研究为自然语言处理领域的研究人员和工程师提供了有价值的参考。

Jan, 2024

基于预训练句子嵌入的长文档分类的注意力机制

通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合，结合文档长度线性扩展的小的注意力层，我们得到了与当前最先进模型竞争力的结果，特别是在冻结底层 transformers 的情况下，有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。

Jul, 2023

利用预训练的层次 Transformer 进行无监督抽取式摘要

本文提出了一种使用 transformer 自注意力机制进行无监督文本摘要提取的方法，并在 CNN / DailyMail 和 New York Times 数据集上证明其优于现有的无监督模型，且不太依赖于句子位置。

Oct, 2020

基于层级神经网络的长文档分类方法

本文研究使用分层传递学习方法进行长文本分类，通过将数据分成块，然后传递到使用双向编码器表示的预训练通用句子编码器和 BERT 的基本模型，然后使每个块的输出表示通过包括 LSTMs 或 CNNs 的浅层神经网络来分类文本数据。使用此扩展方法对 6 个基准数据集进行评估，同时与多个深度学习算法进行比较，其中 Longformer 方法在大多数数据集上始终表现良好。

Jan, 2022

重新审视基于 Transformer 的长文档分类模型

本研究使用稀疏注意力机制和分层变换器方法，对基于 Transformers 的长文本分类进行比较，探讨了四个文本分类数据集，并得出了实际应用此方法的实用建议。

Apr, 2022

SEAL：基于段落的提取 - 抽象长文本摘要

该论文提出了一种基于 Transformer 的模型 SEAL，用于长篇抽象文本摘要，模型具有可解释性，同时可以使用原始文档和摘要提供弱监督学习信号。该模型在现有长篇摘要任务上取得了最佳结果，并在新的数据集 / 任务 Search2Wiki 上优于强基线模型。

Jun, 2020

基于分层注意力机制的高效长文档分类探索

本研究开发并发布了使用分段编码器，并将其与 Longformer 模型和部分预训练的 HAT 进行比较的完全预训练 HAT 模型，在多个长文档下游分类任务中，我们的最佳 HAT 模型在使用 10-20％ GPU 内存的情况下比同等大小的 Longformer 模型更快地处理文档并实现更好的性能。在消融研究中，发现 HAT 在整个模型中进行跨段上下文信息处理比其他配置的早期或晚期跨段上下文处理性能更好。

Oct, 2022