基于分层注意力机制的高效长文档分类探索

Oct, 2022

基于分层注意力机制的高效长文档分类探索

An Exploration of Hierarchical Attention Transformers for Efficient Long Document Classification

Ilias Chalkidis, Xiang Dai, Manos Fergadiotis, Prodromos Malakasiotis, Desmond Elliott

TL;DR本研究开发并发布了使用分段编码器，并将其与 Longformer 模型和部分预训练的 HAT 进行比较的完全预训练 HAT 模型，在多个长文档下游分类任务中，我们的最佳 HAT 模型在使用 10-20％ GPU 内存的情况下比同等大小的 Longformer 模型更快地处理文档并实现更好的性能。在消融研究中，发现 HAT 在整个模型中进行跨段上下文信息处理比其他配置的早期或晚期跨段上下文处理性能更好。

Abstract

Non-hierarchical sparse attention transformer-based models, such as Longformer and Big Bird, are popular approaches to working with long document

sparse attention transformer-based models long documents hierarchical attention transformer classification

发现论文，激发创造

使用分层学习生成长源序列

本研究设计并研究了一种新的分层注意力 Transformer 架构（HAT），在几个序列到序列任务中优于标准 Transformer，包括在 PubMed、arXiv、CNN/DM、SAMSum 和 AMI 上的四个摘要任务中取得了最新的 ROUGE 分数。该架构在 WMT20 英文到德文翻译任务中优于文档级机器翻译基线，并通过可视化分层编解码器注意力来研究了分层层次的理解，最后研究了编码器预训练上的分层学习并分析了其在分类任务上的性能。

Apr, 2021

基于层级神经网络的长文档分类方法

本文研究使用分层传递学习方法进行长文本分类，通过将数据分成块，然后传递到使用双向编码器表示的预训练通用句子编码器和 BERT 的基本模型，然后使每个块的输出表示通过包括 LSTMs 或 CNNs 的浅层神经网络来分类文本数据。使用此扩展方法对 6 个基准数据集进行评估，同时与多个深度学习算法进行比较，其中 Longformer 方法在大多数数据集上始终表现良好。

Jan, 2022

重新审视基于 Transformer 的长文档分类模型

本研究使用稀疏注意力机制和分层变换器方法，对基于 Transformers 的长文本分类进行比较，探讨了四个文本分类数据集，并得出了实际应用此方法的实用建议。

Apr, 2022

Longformer：长文档转换器

Longformer 是一种基于 Transformers 的模型，采用能够线性缩放序列长度的自注意力机制，使得处理数千个记号以上的文档变得容易；与先前的一些工作不同的是，Longformer 同时进行了预训练和下游任务的微调，并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外，Longformer 还引入了 Longformer-Encoder-Decoder（LED）以支持长文档的生成序列对序列任务。

Apr, 2020

硬件感知的 Transformer 模型用于高效自然语言处理

通过神经架构搜索，设计了硬件感知的 Transformer 来保证在资源受限的硬件平台上具有低延迟推断的能力，从而在机器翻译任务中显著提高速度和模型效率。

May, 2020

Hi-Transformer: 高效、有效的长文档建模的分层交互式 Transformer

提出一种称为 Hi-Transformer 的层次交互 Transformer 模型，通过学习每个句子的表示来获取全局文档信息，可以高效、有效地处理长文档建模问题。

Jun, 2021

HETFORMER：用于长文本抽取式摘要的稀疏注意力异构 Transformer

本文提出了一种基于 Transformer 的预训练模型，通过多粒度稀疏注意力机制，从长文本中捕捉语义图结构并进行提取式摘要，实验证明 HETFORMER 在 Rouge F1 上具有最先进的性能，同时使用更少的内存和参数。

Oct, 2021

HAT：用于图像恢复的混合注意力变换器

Transformer-based methods have limitations in utilizing input information, so a Hybrid Attention Transformer (HAT) is proposed to improve restoration tasks by combining channel attention and window-based self-attention schemes.

Sep, 2023

层级 Transformer 用于长文档分类

该研究介绍了如何通过引入基于循环层或其他 Transformer 的单输出层对长文本进行 BERT 模型的微调，成功将其应用于客户电话满意度预测和话题分类任务中，并在两个任务中取得了显著的改进。

Oct, 2019

H-Transformer-1D: 序列快速一维分层注意力

本研究提出了一种高效的基于矩阵结构的层次注意力方法，并证明了这种方法在自然语言和视觉任务中捕捉层次结构的归纳偏差是有效的，相比于其他次二次方提议在 Long Range Arena 基准测试上平均提高了 6 个百分点，在 One-Billion Word 数据集上也取得了新的 SOTA 测试困惑度。

Jul, 2021