通过同步实现长序列高效编码

Mar, 2022

Efficient Long Sequence Encoding via Synchronization

Xiangyang Mou, Mo Yu, Bingsheng Yao, Lifu Huang

TL;DR本研究提出一种基于同步机制的层次编码方法，将长的输入序列分段处理并在 Transformer 层内利用自注意力机制对锚点嵌入进行同步，从而改善了不同类型长输入文本数据的全局信息交流。

Abstract

Pre-trained transformer models have achieved successes in a wide range of NLP tasks, but are inefficient when dealing with long input sequences. Existing studies try to overcome this challenge via segmenting the long sequence followed by →

transformer models nlp tasks hierarchical encoding self-attention module global information exchange

发现论文，激发创造

使用分层学习生成长源序列

本研究设计并研究了一种新的分层注意力 Transformer 架构（HAT），在几个序列到序列任务中优于标准 Transformer，包括在 PubMed、arXiv、CNN/DM、SAMSum 和 AMI 上的四个摘要任务中取得了最新的 ROUGE 分数。该架构在 WMT20 英文到德文翻译任务中优于文档级机器翻译基线，并通过可视化分层编解码器注意力来研究了分层层次的理解，最后研究了编码器预训练上的分层学习并分析了其在分类任务上的性能。

Apr, 2021

分割、对齐、选择：一种用于 Transformer 的简单长序列处理方法

通过将每个长序列输入分割成一批块，并在编码步骤中对块间信息进行对齐，我们提出了一个简单的框架，使通用的预训练 Transformer 能够处理更长的序列，同时计算和内存成本与输入序列长度线性增长。通过在每个编码 Transformer 模块中对块中的起始和结束标记嵌入进行对齐，我们能够提取块间语义信息。为了学习一个有效的隐藏状态选择策略，我们设计了一个受强化学习启发的双重更新方案，将 Transformer 的解码器视为环境，并将下游性能指标作为奖励来评估隐藏状态选择动作。我们在真实世界的长文本摘要和阅读理解任务上的实证结果表明，与之前的长序列处理基准相比，我们取得了有效的改进。

Aug, 2023

阅读、标记和总结：基于层次神经语义编码器的方法

本文提出了一种基于文档精华提取的文本摘要方法，并通过引入语言因素和改进神经网络如 LSTMs 和 Neural Semantic Encoders，利用自我强化学习模型进一步提高了文本摘要的质量，实现并超越了文本摘要领域的最佳性能，其中基于分层 NSE 模型的 ROUGE 值提升近 4 个百分点。

Oct, 2019

SEAL：基于段落的提取 - 抽象长文本摘要

该论文提出了一种基于 Transformer 的模型 SEAL，用于长篇抽象文本摘要，模型具有可解释性，同时可以使用原始文档和摘要提供弱监督学习信号。该模型在现有长篇摘要任务上取得了最佳结果，并在新的数据集 / 任务 Search2Wiki 上优于强基线模型。

Jun, 2020

面向百万级依赖建模的长序列模型的统一视图

本文探讨了 Transformers 在长序列建模中的应用，并提出了一种处理百万级依赖关系的机器学习系统，其中的分布式多头注意力机制可提高 40 倍的计算效率。

Feb, 2023

探究有效扩展 Transformer 用于长输入摘要

本文研究了使用预训练 Transformer 模型进行长输入摘要所面临的挑战，并通过实验提出了一种新的模型 PEGASUS-X，在不需要并行训练和添加很多参数的情况下，能够高效地处理长度超过常规预训练模型最大输入长度的输入，并在长输入摘要任务中达到了比较强的性能表现。

Aug, 2022

LongT5: 高效的长序列文本转换器

本文介绍了一种新模型 LongT5，该模型将长输入变换（ETC）的注意力机制和摘要预训练（PEGASUS）的预训练策略整合到可扩展的 T5 架构中，取得了更好的自然语言摘要和问答系统结果。

Dec, 2021

基于分层注意力机制的高效长文档分类探索

本研究开发并发布了使用分段编码器，并将其与 Longformer 模型和部分预训练的 HAT 进行比较的完全预训练 HAT 模型，在多个长文档下游分类任务中，我们的最佳 HAT 模型在使用 10-20％ GPU 内存的情况下比同等大小的 Longformer 模型更快地处理文档并实现更好的性能。在消融研究中，发现 HAT 在整个模型中进行跨段上下文信息处理比其他配置的早期或晚期跨段上下文处理性能更好。

Oct, 2022

机器翻译的异步和分段双向编码

该研究通过改进基于 Transformer 的异步分段双向解码策略，以提高翻译效率和准确性。实验结果表明，在处理长句子方面，与传统的单向翻译方法相比，我们的方法表现出更高的效率和改善的翻译质量。此外，研究还分析了句子长度对解码结果的影响，并探讨了模型在不同场景中的性能。这项研究的发现不仅为 NMT 领域提供了一种有效的编码策略，而且为未来的研究开辟了新的途径和方向。

Feb, 2024

句子编码器预训练的交叉思维

这篇论文提出了 Cross-Thought 方法用以预训练序列编码器，通过大规模的短序列训练 Transformer-based 序列编码器来自动选择对预测掩码词最有用的信息，用于大规模自然语言处理任务，如问答，文本推断等，实验结果表明，所提出的方法比传统基于连续句子信号的最新编码器以及传统掩码语言模型基线更加优秀，并打破了 HotpotQA (full-wiki setting) 的最新记录，取得了新的最高水平的中间信息检索表现。

Oct, 2020