ICLRDec, 2018

连续输出序列到序列模型的 von Mises-Fisher 损失训练

TL;DR本研究提出了一种用连续嵌入层替代 Softmax 层的技术,使得生成的语言模型具有较大的词汇表并且具有比传统模型更高效的训练速度,在神经机器翻译任务上的表现也保持在业界领先水平。