Feb, 2019

通过可学习的单调逐点非线性性消除 Softmax 瓶颈

TL;DR提出一种在 softmax 函数之上学习参数单调函数的方法,理论上和实验上都优于传统的 line-softmax 方法,在自然语言模型的应用方面具有潜在的可拓展性。