BriefGPT.xyz
Ask
alpha
关键词
masking self-attention
搜索结果 - 1
EMNLP
长短时 Masking Transformer: 一种简单而有效的文档级神经机器翻译基线模型
本研究探索了基于上下文感知框架的神经机器翻译系统,研究发现标准 Transformer 自回归属性可以同时带来一致性和误差积累的优势和劣势,因此提出了一种简单的基于长短时记忆的自注意力机制用于捕捉长距离依赖并减少误差传播,在两个公开数据集上
→
PDF
4 years ago
Prev
Next