Oct, 2023

基于范数的变压器的序列长度无关普适性界

TL;DR该研究提供了一种不依赖输入序列长度的基于规范化的Transformer架构的广义化界限,并使用基于覆盖数的方法证明了该界限。我们使用三种新颖的覆盖数界限来上界Transformer的Rademacher复杂性,并展示了这种广义化界限适用于常见的Transformer训练技术:屏蔽并预测屏蔽词。此外,我们还在一个稀疏多数数据集上进行了模拟研究,从实证上验证了我们的理论发现。