通用变压器
本文提出了 R-Transformer 模型,结合了 RNN 和多头注意力机制的优点,同时避免了它们各自的缺点,能够在不使用位置嵌入的情况下有效捕捉序列中的本地结构和全局长期依赖关系。通过广泛的实验评估表明,在大多数任务中,R-Transformer 优于最先进的方法。
Jul, 2019
本文证明了 Transformer 模型具有连续排列等变序列到序列函数的通用逼近性,并且使用位置编码绕过了排列等变性的限制,展示了 Transformer 可以普遍逼近任意的连续序列到序列函数。该文章的基础是对 Transformer 中自注意力和前馈层分别在模型中的不同作用,在分析的基础上,考虑了其他简单的自注意力层的替代方法并进行了实验性评估。
Dec, 2019
提出了 Sparse Universal Transformer (SUT),利用稀疏专家混合(SMoE)和基于断裂棒的动态终止机制来减少 UT 的计算复杂性,同时保持其参数效率和泛化能力。实验证明,SUT 在 WMT'14 上仅使用一半的计算和参数与强基准模型实现相同性能,并在形式语言任务(逻辑推理和 CFQ)上获得强大的泛化结果。新的终止机制还在推理过程中实现了大约 50% 的计算减少,而在形式语言任务上的性能降低非常小。
Oct, 2023
使用变压器架构生成、评估和训练数学表达式,将其作为字符级序列转换任务进行分析,建立在关注机制上的编码器和解码器上。三个模型分别被训练在数学符号变量和表达式的理解和评估上,最终达到了测试准确率高达 76.1%、78.8% 和 84.9%。
Dec, 2018
Blockwise Parallel Transformer (BPT) is a distinct approach to address memory demands posed by the self-attention mechanism and the large feedforward network in Transformers, which enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods, and improves performance in language modeling and reinforcement learning tasks.
May, 2023
测试和评估在时间序列数据上应用 Transformer 模型的有效性,通过调整超参数、预处理数据、应用降维或卷积编码等方式来解决异常检测、上下文感知和空间复杂性问题,同时探索修改现有解决方案以实现更高性能和学习广义知识的方法。
Aug, 2021
本研究探究了预先在自然语言处理上训练的 transformer 模型是否可以在最小化调整下进行泛化以适用于其他模式,并研究其在数字计算、视觉和蛋白质折叠预测等序列分类任务上的优化性能。结果表明,预训练模型对非语言下游任务的性能和计算效率都有积极作用。
Mar, 2021
通过引入循环替代方案以解决 transformer 自注意机制中的两个局限,本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法,在强化学习问题中实现了性能的提升。
Oct, 2023
通过引入新的任务,我们调查了 transformers 在不同难度的问题上的泛化效应,并通过结果表明,标准 transformers 在解决这些任务时面临挑战。我们提出了基于适应性和模块化计算机制的 Hyper-UT 架构,它通过从超网络生成动态函数和从通用 transformers 中获得适应性深度来学习需要对计算步骤数量(即计算图的深度)进行泛化的任务。该模型表现出更高的准确性和对于更高数量的计算步骤的公平的计算资源分配。我们得出结论,适应性深度和模块化机制相互补充,从而提高了关于示例复杂性的高效泛化效应。此外,我们还说明了我们发现的广泛适用性,通过证明在标准图像识别任务中,Hyper-UT 模型的性能与 ViT 模型相匹配,但计算要求显著降低(通过有效使用较少的层达到平均节省 70%)。
Oct, 2023