BriefGPT.xyz
Oct, 2018
无需关注
You May Not Need Attention
HTML
PDF
Ofir Press, Noah A. Smith
TL;DR
介绍了一种不需要注意力机制、没有分开的编码器和解码器的循环神经翻译模型,它是低延迟的,能在读取第一个源标记时立即写入目标标记,并在解码期间保持常量内存使用率。它的性能与Bahdanau等人(2014)的标准注意力模型相当,对于长句子表现更优。
Abstract
In
nmt
, how far can we get without
attention
and without separate encoding and decoding? To answer that question, we introduce a
recurrent neural
→