BriefGPT.xyz
Ask
alpha
关键词
adaptive and sparse architecture
搜索结果 - 1
自适应稀疏 Transformer 多语言翻译
通过采用自适应的、稀疏的多语言建模结构,实现共享参数和语言特定参数的学习,提高正向转移和减轻干扰,从而达到改善翻译质量和保持推理效率的目的。与标准 Transformer 相比,我们在多项基准测试中的表现都超过了强基准,特别是在使用 100
→
PDF
3 years ago
Prev
Next