BriefGPT.xyz
Ask
alpha
关键词
sparse variables
搜索结果 - 1
ICML
自注意机制中的感性偏见和变量创建
本文通过对自我注意模块归纳偏差的理论分析,发现有界 Transformer 网络能够创建稀疏变量,从而用单个注意力头表示输入序列的稀疏函数,样本复杂度仅以对数尺度增长;通过合成实验来支持我们的分析,探究了使用 Transformer 学习稀
→
PDF
3 years ago
Prev
Next