BriefGPT.xyz
Ask
alpha
关键词
algorithmic separation
搜索结果 - 1
Transformer 可以在全连接网络无法实现的情况下证明稀疏令牌选择的学习能力
基于变形器架构的稀疏令牌选择任务分析,训练过程中表现出强大的某些任务的泛化能力。
PDF
25 days ago
Prev
Next