Feb, 2016

从 Softmax 到 Sparsemax:一种注意力和多标签分类的稀疏模型

TL;DR本文提出了稀疏最大函数,一种类似传统 softmax 的激活函数,但能够输出稀疏概率,并给出了其特性及其雅可比矩阵的高效计算方法,并提出了一个新的平滑且凸函数作为逻辑损失的稀疏最大函数的对应,同时也发现它与 Huber 分类损失之间的意外联系,本文得到的实验结果表明,在多标签分类和自然语言推断的基于注意力机制的神经网络中,与传统 softmax 相比,采用稀疏最大函数可以获得类似的性能,但具有更精细、更紧凑的注意力焦点。