稀疏序列到序列模型

ACLMay, 2019

Sparse Sequence-to-Sequence Models

Ben Peters, Vlad Niculae, André F.T. Martins

TL;DR提出了基于 alpha-entmax 变换的稀疏序列到序列模型，能产生稀疏的对齐和分配概率到一组合理的输出，这在形态学变化和机器翻译的实验中展现了比密集模型更好的表现。

Abstract

sequence-to-sequence models are a powerful workhorse of NLP. Most variants employ a softmax transformation in both their attention mechanism and output layer, leading to dense alignments and strictly positive output probabilities. This density is wasteful, making models less interpreta

sequence-to-sequence models sparse models alpha-entmax transformations morphological inflection machine translation

发现论文，激发创造

稀疏 Seq2Seq 搜索空间的平滑和缩小

本研究发现基于 entmax 的模型具有很好的解决翻译中的 “cat got your tongue” 问题的能力，同时该模型也可以处理诸如跨语言形态学和机器翻译等任务，并且引入了一种更广泛的正则化技术 Fenchel-Young losses。

Mar, 2021

自适应稀疏变压器

介绍了自适应稀疏转换器，使用 α-entmax 代替 softmax，可以适应性地学习头部偏爱的结构，并改善了 softmax 转换器在机器翻译数据集上的可解释性和头部多样性。

Aug, 2019

从 Softmax 到 Sparsemax：一种注意力和多标签分类的稀疏模型

本文提出了稀疏最大函数，一种类似传统 softmax 的激活函数，但能够输出稀疏概率，并给出了其特性及其雅可比矩阵的高效计算方法，并提出了一个新的平滑且凸函数作为逻辑损失的稀疏最大函数的对应，同时也发现它与 Huber 分类损失之间的意外联系，本文得到的实验结果表明，在多标签分类和自然语言推断的基于注意力机制的神经网络中，与传统 softmax 相比，采用稀疏最大函数可以获得类似的性能，但具有更精细、更紧凑的注意力焦点。

Feb, 2016

可控稀疏 Softmax 替代方案

研究基于概率分布的机器学习任务中，提出了几种概率映射函数，为了控制稀疏度，开发出了一个统一框架并提出了两种新的 sparse formulations，并在多标签分类场景中开发了新的凸损失函数，用于计算注意力权重，从而在类似神经机器翻译和抽象摘要等标准 seq2seq 任务上获得更好的性能。

Oct, 2018

稀疏文本生成

本文提出使用 entmax 转换来训练和采样自然稀疏的语言模型，从而避免训练和测试之间的差异，以达到更好的性能和更接近人类文本的 n-gram 多样性，同时提出了三个度量标准来比较稀疏或截断的分布，并通过故事和对话生成等应用展示了该方法的有效性。

Apr, 2020

一种用于稀疏和结构化神经注意力的正则化框架

提出了一种基于平滑的最大值算子的新的稀疏和结构化的注意力机制，它不仅包括 softmax 和稀疏 max 作为特例，还可以融合现代结构惩罚，可以应用于神经网络中，在文本蕴含、机器翻译和句子摘要等任务中表现良好，提高了可解释性并保持性能优越。

May, 2017

神经机器翻译的稀疏和约束注意力

本文提出了一种新颖的方法来解决 NMT 中的 “coverage problem”，通过给源语言单词分配 “fertilities” 来限制每个单词可以接收的注意力，同时提出了一种新的稀疏的注意力变换方式 “sparsemax”，并在三种语言对上进行实证评估。

May, 2018

连续输出序列到序列模型的 von Mises-Fisher 损失训练

本研究提出了一种用连续嵌入层替代 Softmax 层的技术，使得生成的语言模型具有较大的词汇表并且具有比传统模型更高效的训练速度，在神经机器翻译任务上的表现也保持在业界领先水平。

Dec, 2018

利用稀疏变换器生成长序列

本文介绍了一种称为 Sparse Transformers 的神经网络架构，该架构通过稀疏的注意力矩阵因式分解和其他一些技术，可以更有效地处理长序列等任务，并在 Enwik8，CIFAR-10，和 ImageNet-64 等基准数据集上创造出新的最优表现。

Apr, 2019

稀疏和连续的注意机制

本文将 alpha-entmax 方法扩展到连续域，同时提出了基于连续域注意机制的梯度反向传播算法，并通过在文本分类、机器翻译和视觉问答方面的实验表明了连续注意力机制的应用。

Jun, 2020