Apr, 2023

r-softmax:具有可控稀疏率的广义 Softmax

TL;DR本篇论文提出了 r-softmax,一种可以控制稀疏度率的 softmax 修改方案,不同于其他现有的稀疏概率映射函数,我们提供了一种直观的机制来控制输出的稀疏程度。我们在多个多标签数据集上展示了 r-softmax 的优异表现,并证明了在预训练变压器语言模型的自我注意模块中使用 r-softmax 可以提高在不同自然语言处理任务上的性能。