BriefGPT.xyz
Ask
alpha
关键词
ds-init
搜索结果 - 1
EMNLP
通过深度缩放初始化和合并注意力改进深度 Transformer
本文研究了 NLP 中 Transformers 的深度网络结构存在的一些问题,提出了使用 DS-Init 和 MAtt 方法来解决梯度消失和计算效率问题,实验证明这些方法可以有效提升机器翻译的 BLEU 值。
PDF
5 years ago
Prev
Next