Transformer-XL: 超越固定长度上下文的关注式语言模型

ACLJan, 2019

Transformer-XL: 超越固定长度上下文的关注式语言模型

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le...

TL;DR提出了一种名为 Transformer-XL 的神经架构，它能够在语言模型的设定中超越固定长度的依赖关系，并且不会破坏时间上的一致性。通过分段级别的循环机制和一种新颖的位置编码方案，Transformer-XL 不仅能够捕捉更长期的依赖关系，而且还解决了上下文破碎问题。在评估期间，它的速度比普通的 Transformers 要快 1,800 多倍，并且在短序列和长序列上表现更好。实验结果显示，在多个语料库上，Transformer-XL 都比目前的最先进结果表现要好。

Abstract

transformers have a potential of learning longer-term dependency, but are limited by a fixed-length context in the setting of language modeling. We propose a novel →

transformers neural architecture long-term dependency positional encoding language modeling

发现论文，激发创造

Transformer 语言模型的动态评估

这篇研究使用 Transformers 和动态评估两种方法来提高语言建模，在多个数据集上的实验表明，使用动态评估提高了模型预测准确率。

Apr, 2019

更好的多语言表示学习：超越以英语为中心的双语语料

本文介绍了一种构建多语言表示模型的方法，该方法不仅可以与现有的最先进的模型竞争，而且还更加参数高效，从而促进了资源受限情况和实际应用的更好采用。

Oct, 2022

面向百万级依赖建模的长序列模型的统一视图

本文探讨了 Transformers 在长序列建模中的应用，并提出了一种处理百万级依赖关系的机器学习系统，其中的分布式多头注意力机制可提高 40 倍的计算效率。

Feb, 2023

基于 Transformer 的语言模型

本篇论文针对 Transformer 架构不足以高效融合语言建模所需的单词级序列上下文，提出了在保持计算效率的同时通过添加额外的 LSTM 层能够更好地捕捉顺序上下文的有效 Transformer 架构，其中 Coordinate Architecture Search（CAS）通过迭代模型的精炼来找到一个有效的架构，实验结果表明 CAS 在所有问题上的 perplexities 达到了 20.42 ~ 34.11，即比最先进的 LSTM 提高了 12.0 perplexity 单位。

Apr, 2019

Longformer：长文档转换器

Longformer 是一种基于 Transformers 的模型，采用能够线性缩放序列长度的自注意力机制，使得处理数千个记号以上的文档变得容易；与先前的一些工作不同的是，Longformer 同时进行了预训练和下游任务的微调，并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外，Longformer 还引入了 Longformer-Encoder-Decoder（LED）以支持长文档的生成序列对序列任务。

Apr, 2020

注意力对齐和灵活位置嵌入改进了 Transformer 长度外推

提出两种通过温度缩放实现的注意力对齐策略，改善了 T5 在语言建模、检索和多文档问答中对长篇文本的应用能力，无需进行微调。

Nov, 2023

长程语言模型是否实际上使用了长程上下文？

该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型，发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力（例如可以从远处文本中复制的 Token），对于句子级别的预测任务没有任何帮助；并且长范围上下文对文学小说的帮助最大。

Sep, 2021

Transformer 是否需要深度长程记忆

通过一系列干预措施，研究表明使用更少的长时记忆和限制网络低层的注意力范围，可以实现与 Transformer-XL 相当的性能，并且可以获得更好的性能。

Jul, 2020

地标注意力：随机访问变形金刚的无限上下文长度

本论文提出一种新方法，使用地标标记来代表输入的每个块，并通过训练使注意力选择相关块，从而使我们可以访问完整的上下文并保留随机访问灵活性。该方法与专用数据结构和系统的内存层次结构无缝集成，可以处理任意长度的上下文长度。

May, 2023

长程变压器的自然语言处理任务效率

比较研究了多种 Transformer 模型的性能，发现长序列的改进版本在内容选择和查询引导解码方面有优势，但在处理远距离的信息和近似误差上有欠缺的地方。

Feb, 2022