通用变压器

ICLRJul, 2018

Universal Transformers

Mostafa Dehghani, Stephan Gouws, Oriol Vinyals, Jakob Uszkoreit, Łukasz Kaiser

TL;DRUniversal Transformer 是一种并行自我关注循环序列模型，它将前馈序列模型（例如 Transformer）的并行性和全局感受野与递归的归纳偏差相结合，解决了在某些简单任务中标准 Transformer 失败的问题，并取得诸多算法和语言理解任务上优越的表现。

Abstract

recurrent neural networks (RNNs) sequentially process data by updating their state with each new data point, and have long been the de facto choice for sequence modeling tasks. However, their inherently sequentia

recurrent neural networks sequence modeling universal transformer self-attentive parallelization

发现论文，激发创造

R-Transformer：加强循环神经网络的 Transformer 模型

本文提出了 R-Transformer 模型，结合了 RNN 和多头注意力机制的优点，同时避免了它们各自的缺点，能够在不使用位置嵌入的情况下有效捕捉序列中的本地结构和全局长期依赖关系。通过广泛的实验评估表明，在大多数任务中，R-Transformer 优于最先进的方法。

Jul, 2019

Transformer 是否是序列到序列函数的通用逼近器？

本文证明了 Transformer 模型具有连续排列等变序列到序列函数的通用逼近性，并且使用位置编码绕过了排列等变性的限制，展示了 Transformer 可以普遍逼近任意的连续序列到序列函数。该文章的基础是对 Transformer 中自注意力和前馈层分别在模型中的不同作用，在分析的基础上，考虑了其他简单的自注意力层的替代方法并进行了实验性评估。

Dec, 2019

关于循环模型在长序列中的复兴：变形器时代的调研和研究机会

深度学习中基于 Transformer 和循环神经网络的顺序处理对于处理长序列数据和无限长度序列数据具有重要意义。

Feb, 2024

稀疏通用变压器

提出了 Sparse Universal Transformer (SUT)，利用稀疏专家混合（SMoE）和基于断裂棒的动态终止机制来减少 UT 的计算复杂性，同时保持其参数效率和泛化能力。实验证明，SUT 在 WMT'14 上仅使用一半的计算和参数与强基准模型实现相同性能，并在形式语言任务（逻辑推理和 CFQ）上获得强大的泛化结果。新的终止机制还在推理过程中实现了大约 50% 的计算减少，而在形式语言任务上的性能降低非常小。

Oct, 2023

使用 Transformer 关注数学语言

使用变压器架构生成、评估和训练数学表达式，将其作为字符级序列转换任务进行分析，建立在关注机制上的编码器和解码器上。三个模型分别被训练在数学符号变量和表达式的理解和评估上，最终达到了测试准确率高达 76.1%、78.8% 和 84.9%。

Dec, 2018

用于长上下文大模型的分块并行 Transformer

Blockwise Parallel Transformer (BPT) is a distinct approach to address memory demands posed by the self-attention mechanism and the large feedforward network in Transformers, which enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods, and improves performance in language modeling and reinforcement learning tasks.

May, 2023

应用注意力机制的 Transformer 模型进行下一帧和时间序列预测

测试和评估在时间序列数据上应用 Transformer 模型的有效性，通过调整超参数、预处理数据、应用降维或卷积编码等方式来解决异常检测、上下文感知和空间复杂性问题，同时探索修改现有解决方案以实现更高性能和学习广义知识的方法。

Aug, 2021

使用预训练 Transformer 作为通用计算引擎

本研究探究了预先在自然语言处理上训练的 transformer 模型是否可以在最小化调整下进行泛化以适用于其他模式，并研究其在数字计算、视觉和蛋白质折叠预测等序列分类任务上的优化性能。结果表明，预训练模型对非语言下游任务的性能和计算效率都有积极作用。

Mar, 2021

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023

适应性和模块化：高效泛化多样性任务

通过引入新的任务，我们调查了 transformers 在不同难度的问题上的泛化效应，并通过结果表明，标准 transformers 在解决这些任务时面临挑战。我们提出了基于适应性和模块化计算机制的 Hyper-UT 架构，它通过从超网络生成动态函数和从通用 transformers 中获得适应性深度来学习需要对计算步骤数量（即计算图的深度）进行泛化的任务。该模型表现出更高的准确性和对于更高数量的计算步骤的公平的计算资源分配。我们得出结论，适应性深度和模块化机制相互补充，从而提高了关于示例复杂性的高效泛化效应。此外，我们还说明了我们发现的广泛适用性，通过证明在标准图像识别任务中，Hyper-UT 模型的性能与 ViT 模型相匹配，但计算要求显著降低（通过有效使用较少的层达到平均节省 70%）。

Oct, 2023