ICMLOct, 2021

自注意机制中的感性偏见和变量创建

TL;DR本文通过对自我注意模块归纳偏差的理论分析,发现有界 Transformer 网络能够创建稀疏变量,从而用单个注意力头表示输入序列的稀疏函数,样本复杂度仅以对数尺度增长;通过合成实验来支持我们的分析,探究了使用 Transformer 学习稀疏布尔函数的样本复杂度。