Feb, 2024

为什么敏感函数对 Transformer 较难?

TL;DR在变压器架构下,输入空间敏感性限制了损失函数的变化趋势,使得变压器在一般化方面表现出低敏感性和低程度的偏好,并且在计算简单形式语言(如 PARITY)和长度一般化方面存在困难。