BriefGPT.xyz
Ask
alpha
关键词
computer vision and natural language processing benchmarks
搜索结果 - 1
拓宽广度而非纵深
本文提出了一种宽架构、混合专家 (MoE) 替代前馈神经网络 (FFN) 的参数高效框架,通过参数共享以压缩深度,并使用独立的 layernorms 来转换各种语义表示,实验结果在多个计算机视觉和自然语言处理基准测试中表现优异,最佳模型能以
→
PDF
3 years ago
Prev
Next