NIPSOct, 2018

可控稀疏 Softmax 替代方案

TL;DR研究基于概率分布的机器学习任务中,提出了几种概率映射函数,为了控制稀疏度,开发出了一个统一框架并提出了两种新的 sparse formulations,并在多标签分类场景中开发了新的凸损失函数,用于计算注意力权重,从而在类似神经机器翻译和抽象摘要等标准 seq2seq 任务上获得更好的性能。