BriefGPT.xyz
Ask
alpha
关键词
sparse averaging task
搜索结果 - 1
Transformer 的表征能力与局限性
本研究通过分析注意力层及其所在的变形器模型的表示能力,探讨这些模型相对于其他架构的优势和劣势,并重点关注了它们的内在复杂度参数,例如宽度、深度和嵌入维度。在正面方面,我们提出了一个稀疏平均任务,并证明了循环网络和前馈网络的复杂性随着输入规模
→
PDF
a year ago
Prev
Next