并行权衡：Log-Precision Transformer 的局限性

ACLJul, 2022

并行权衡：Log-Precision Transformer 的局限性

The Parallelism Tradeoff: Limitations of Log-Precision Transformers

William Merrill, Ashish Sabharwal

TL;DR本研究证明了计算精度对数与输入标记数量相关的 transformer 神经网络可以通过常深度对数空间均匀阈值电路进行模拟，并且从复杂性理论的角度提供了关于 transformer 网络计算力的见解，这表明如果 L≠P，那么 transformer 神经网络甚至无法精确解决线性等式或检查产生空符号的任意上下文无关语法的成员身份，因此研究也推测性地引入了一种基本的并行性权衡观念：与 transformer 一样并行化的任何模型体系结构都将遵守类似的限制，这暗示了放大模型范式的潜在固有弱点。

Abstract

Despite their omnipresence in modern NLP, characterizing the computational power of transformer neural nets remains an interesting open question. We prove that transformers whose arithmetic precision is logarithmic in the number of input tokens (and whose feedforward nets are computabl

transformer neural nets computational power logarithmic precision complexity theory parallelism tradeoff

发现论文，激发创造

Transformer, 并行计算，和对数深度

在这篇论文中，我们展示了自注意力层的数量可以高效地模拟和被大规模并行计算的常数通信轮次所模拟。因此，我们证明对于 transformer 来说，对于其他多个神经序列模型和次二次方变压器逼近算法无法高效解决的基本计算任务，对数深度是足够的。我们因此将并行性建立为变压器的一个关键区别特性。

Feb, 2024

为什么敏感函数对 Transformer 较难？

在变压器架构下，输入空间敏感性限制了损失函数的变化趋势，使得变压器在一般化方面表现出低敏感性和低程度的偏好，并且在计算简单形式语言（如 PARITY）和长度一般化方面存在困难。

Feb, 2024

克服自注意力机制的理论限制

该研究研究了 Transformer 网络在接受依赖于单一输入符号的语言中的限制，并通过使用 PARITY 和 FIRST 语言作为例子，证明了三种克服该限制的方法。

Feb, 2022

平均困难注意力变换器是恒定深度均匀阈值电路

该论文研究了 Transformers 模型在自然语言处理任务中的应用，并发现它们与常深度门电路之间的关系，通过两个假设（平均难度的注意力和对内部计算相对于输入长度的对数精度）。研究表明，平均难度的注意力 Transformers 可以识别属于复杂度类 TC0 的语言，而对数精度 Transformers 可以识别属于均匀 TC0 类的语言。此外，该论文还指出第一个结果可以扩展为生成均匀电路。

Aug, 2023

通过图算法理解 Transformer 推理能力

Transformer 自动缩放机制、算法推理能力的研究（深度、宽度、额外标记数）及在图推理任务中的优秀表现。

May, 2024

Transformer 在思维链条中的表达能力

研究表明，通过允许 transformer 在回答问题之前生成和依赖于中间令牌的序列，可以提高其推理能力，增加中间生成的数量将显著扩展 transformer 解码器的计算能力，进而使其能够识别所有正则语言，保持上下文敏感语言，并解决多项式时间可解问题。

Oct, 2023

变形金刚何时能够通过抽象符号进行推理？

调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务，我们证明了 Transformer 在训练时具有泛化性，但需要大量的训练数据；对于具有符号标签的 (ii) 下一个令牌预测任务，我们展示了一种 “反比例尺律”：随着嵌入维度的增加，Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况，我们提出了微妙的 Transformer 修改，通过每个头部添加两个可训练参数来减少所需的数据量。

Oct, 2023

教授神经网络时间逻辑

本文探讨了神经符号计算中的两个基本问题：深度学习是否能够端到端地解决逻辑中的挑战性问题，以及神经网络是否能够学习逻辑的语义。研究重点是线性时间暂态逻辑（LTL），通过训练 Transformer 来直接预测给定 LTL 公式的解，使用传统求解器产生的经典解决方案生成训练数据，研究表明，使用这些特定的解决方案进行训练已足够。 Transformers 甚至可以预测在文献基准测试中，经典求解器超时的公式的解，它也可以推广到逻辑的语义，虽然与经典求解器找到的解有所不同，但仍可以正确地预测大多数公式的解。

Mar, 2020

信仰与命运：变形金刚在组合性上的局限性

本研究旨在探讨 Transformer 大型语言模型在复合任务上的局限性，研究结果表明 Transformer 模型虽然具有出色的多步推理性能，但其解决复合任务的方式是将多步推理化简为线性子图匹配，而并未完全发展出解决问题的系统性解决问题的方法，同时，随着任务复杂度的增加，Transformer 模型的性能也会快速下降。

May, 2023

Transformer 可以表示 $n$-gram 语言模型

该研究论文探讨了 Transformer 语言模型与 n-gram 语言模型之间的关系，通过分析机器学习模型的概率表示能力，提供了对 Transformer 语言模型代表概率分布的机制的初步认识。

Apr, 2024