可编程计算机的环形变压器
提出了一种使用循环变压器架构和相关训练方法的方法,旨在将迭代特性纳入变压器架构中,实现与标准变压器相媲美的性能,在解决各种数据拟合问题时使用少于 10%的参数数量。
Nov, 2023
本文提出了一种计算模型,将 Transformer-encoder 的基本组件 attention 和 feed-forward 计算映射到简单的原语中,并形成一种编程语言 RASP,用于编程解决可能由 Transformer 学习的任务,并演示了如何训练 Transformer 模仿 RASP 解决方案,并且利用该模型分析了所需图层和注意头数。
Jun, 2021
我们研究了使用转换器网络在图上模拟算法的能力,并证明了该架构可以模拟 Dijkstra 最短路径算法、广度优先搜索、深度优先搜索和 Kosaraju 强连通分量算法,并展示了在有限精度下模拟的限制问题,最后证明了在额外的注意力头部利用时具有恒定宽度的图灵完备性结果。
Feb, 2024
通过引入 Algorithm Transformer(AlgoFormer)的设计,我们增强了 transformers 的算法表示能力,并且实验证明了 AlgoFormer 在某些具有挑战性的任务上优于标准 transformer 和 vanilla looped transformer。
Feb, 2024
本文研究了神经网络在程序编写和形式验证方面的行为,重点关注结构递归,并评估了变压器模型在近似这些函数中的能力及其局限性,并通过重构算法正确预测了近似函数的失败案例的 91%。
May, 2023
通过研究具有线性化注意力的自回归 Transformer,即线性 Transformer(LT)或快速权重编程器(FWP),我们发现许多应用于标准 Transformer 的知名结果可以直接转移到 LTs / FWPs,并证明了最近提出的 FWP 扩展成功地克服了 LT 的某些限制,如在奇偶性问题上的泛化。
Oct, 2023
生成式机器学习方法如大型语言模型正在革新文本和图像的创作。本研究通过容错性量子计算的视角来调查变压器架构。通过将预训练的权重矩阵作为区块编码来构建变压器的查询、关键和值矩阵。我们展示了如何使用 Hadamard 乘积对自注意矩阵的行逐行应用 softmax 函数来准备区块编码。此外,我们结合了量子子程序来构建变压器中的重要构件,包括残余连接、层归一化和前馈神经网络。我们的子程序准备了变压器输出的振幅编码,可以进行测量以获得预测结果。我们讨论了获取量子优势的潜力和挑战。
Feb, 2024
使用变压器架构生成、评估和训练数学表达式,将其作为字符级序列转换任务进行分析,建立在关注机制上的编码器和解码器上。三个模型分别被训练在数学符号变量和表达式的理解和评估上,最终达到了测试准确率高达 76.1%、78.8% 和 84.9%。
Dec, 2018
这篇论文研究了变形金刚网络的计算能力与图灵完备性,得出了只有通过位置掩蔽而没有位置编码的变形金刚同样具有图灵完备性,而某些残差连接是必需的结论,并通过机器翻译和合成任务的实验说明了结果的实际应用。
Jun, 2020
在这篇论文中,我们展示了自注意力层的数量可以高效地模拟和被大规模并行计算的常数通信轮次所模拟。因此,我们证明对于 transformer 来说,对于其他多个神经序列模型和次二次方变压器逼近算法无法高效解决的基本计算任务,对数深度是足够的。我们因此将并行性建立为变压器的一个关键区别特性。
Feb, 2024