使用分层学习生成长源序列

Apr, 2021

Hierarchical Learning for Generation with Long Source Sequences

Tobias Rohde, Xiaoxia Wu, Yinhan Liu

TL;DR本研究设计并研究了一种新的分层注意力 Transformer 架构（HAT），在几个序列到序列任务中优于标准 Transformer，包括在 PubMed、arXiv、CNN/DM、SAMSum 和 AMI 上的四个摘要任务中取得了最新的 ROUGE 分数。该架构在 WMT20 英文到德文翻译任务中优于文档级机器翻译基线，并通过可视化分层编解码器注意力来研究了分层层次的理解，最后研究了编码器预训练上的分层学习并分析了其在分类任务上的性能。

Abstract

One of the challenges for current sequence to sequence (seq2seq) models is processing long sequences, such as those in summarization and document level machine translation tasks. These tasks require the model to

sequence to sequence models hierarchical attention transformer summarization machine translation rouge scores

发现论文，激发创造

阅读、标记和总结：基于层次神经语义编码器的方法

本文提出了一种基于文档精华提取的文本摘要方法，并通过引入语言因素和改进神经网络如 LSTMs 和 Neural Semantic Encoders，利用自我强化学习模型进一步提高了文本摘要的质量，实现并超越了文本摘要领域的最佳性能，其中基于分层 NSE 模型的 ROUGE 值提升近 4 个百分点。

Oct, 2019

面向任务的分层 Transformer 对话系统

本文提出了一种广义的分层 Transformer 编码器框架，并通过一系列实验展示了分层编码如何帮助任务导向的对话系统中的 transformer-based 模型更好地理解上下文从而实现更好的自然语言理解。

Oct, 2020

基于分层注意力机制的高效长文档分类探索

本研究开发并发布了使用分段编码器，并将其与 Longformer 模型和部分预训练的 HAT 进行比较的完全预训练 HAT 模型，在多个长文档下游分类任务中，我们的最佳 HAT 模型在使用 10-20％ GPU 内存的情况下比同等大小的 Longformer 模型更快地处理文档并实现更好的性能。在消融研究中，发现 HAT 在整个模型中进行跨段上下文信息处理比其他配置的早期或晚期跨段上下文处理性能更好。

Oct, 2022

通过同步实现长序列高效编码

本研究提出一种基于同步机制的层次编码方法，将长的输入序列分段处理并在 Transformer 层内利用自注意力机制对锚点嵌入进行同步，从而改善了不同类型长输入文本数据的全局信息交流。

Mar, 2022

多文档摘要的分层 Transformer

本文提出了一种神经网络归纳模型，能够有效地处理多个输入文档，并利用 Transformers 架构对文档进行层次编码，通过注意力机制来表示跨文档之间的关系，并学习文本单元之间的潜在依赖关系，在 Wikisum 数据集上的实验证明，所提出的架构比数个强基线模型都有明显的改进。

May, 2019

通过长序列摘要生成维基百科

通过抽取式摘要识别重要信息并使用神经摘要模型生成文章及段落以及整个维基百科文章，特别是引入可扩展关注长序列的仅解码器结构，当给定参考文献时，该模型可以提取相关的事实信息。

Jan, 2018

带有结构注意力的神经抽象摘要

本文提出了一种基于结构化注意力的分层编码器，用于建模句内和文档间相互依赖关系，在多文档摘要生成任务中表现出显著的改进，击败了现有的模型。

Apr, 2020

基于层级神经网络的长文档分类方法

本文研究使用分层传递学习方法进行长文本分类，通过将数据分成块，然后传递到使用双向编码器表示的预训练通用句子编码器和 BERT 的基本模型，然后使每个块的输出表示通过包括 LSTMs 或 CNNs 的浅层神经网络来分类文本数据。使用此扩展方法对 6 个基准数据集进行评估，同时与多个深度学习算法进行比较，其中 Longformer 方法在大多数数据集上始终表现良好。

Jan, 2022

由潜在分层文档结构引导的抽象摘要

提出使用层次感知图神经网络（HierGNN）实现文档结构层次分析的自动摘要模型，在 CNN / DM 和 XSum 数据集上分别取得了平均 ROUGE-1/2/L 为 0.55 和 0.75，在人工评估中也证明了其比基线具有更高的内容相关性和较少的冗余。

Nov, 2022

面向百万级依赖建模的长序列模型的统一视图

本文探讨了 Transformers 在长序列建模中的应用，并提出了一种处理百万级依赖关系的机器学习系统，其中的分布式多头注意力机制可提高 40 倍的计算效率。

Feb, 2023