sparse variables | BriefGPT

关键词sparse variables

搜索结果 - 1

ICML自注意机制中的感性偏见和变量创建
本文通过对自我注意模块归纳偏差的理论分析，发现有界 Transformer 网络能够创建稀疏变量，从而用单个注意力头表示输入序列的稀疏函数，样本复杂度仅以对数尺度增长；通过合成实验来支持我们的分析，探究了使用 Transformer 学习稀
PDF3 years ago