一种用于稀疏和结构化神经注意力的正则化框架

May, 2017

一种用于稀疏和结构化神经注意力的正则化框架

A Regularized Framework for Sparse and Structured Neural Attention

Vlad Niculae, Mathieu Blondel

TL;DR提出了一种基于平滑的最大值算子的新的稀疏和结构化的注意力机制，它不仅包括 softmax 和稀疏 max 作为特例，还可以融合现代结构惩罚，可以应用于神经网络中，在文本蕴含、机器翻译和句子摘要等任务中表现良好，提高了可解释性并保持性能优越。

Abstract

Modern neural networks are often augmented with an attention mechanism, which tells the network where to focus within the input. We propose in this paper a new framework for →

neural networks attention mechanism sparse and structured attention probability mapping interpretable attention mechanisms

发现论文，激发创造

从 Softmax 到 Sparsemax：一种注意力和多标签分类的稀疏模型

本文提出了稀疏最大函数，一种类似传统 softmax 的激活函数，但能够输出稀疏概率，并给出了其特性及其雅可比矩阵的高效计算方法，并提出了一个新的平滑且凸函数作为逻辑损失的稀疏最大函数的对应，同时也发现它与 Huber 分类损失之间的意外联系，本文得到的实验结果表明，在多标签分类和自然语言推断的基于注意力机制的神经网络中，与传统 softmax 相比，采用稀疏最大函数可以获得类似的性能，但具有更精细、更紧凑的注意力焦点。

Feb, 2016

神经机器翻译的稀疏和约束注意力

本文提出了一种新颖的方法来解决 NMT 中的 “coverage problem”，通过给源语言单词分配 “fertilities” 来限制每个单词可以接收的注意力，同时提出了一种新的稀疏的注意力变换方式 “sparsemax”，并在三种语言对上进行实证评估。

May, 2018

自适应稀疏变压器

介绍了自适应稀疏转换器，使用 α-entmax 代替 softmax，可以适应性地学习头部偏爱的结构，并改善了 softmax 转换器在机器翻译数据集上的可解释性和头部多样性。

Aug, 2019

抽象化摘要中的多头注意力理解

本文研究了适用于抽象总结的多头自注意机制的可解释性，介绍了三个度量衡来评估关注头的重要性，发现相对位置的头对总结表现至关重要，不建议弃掉，而强制稀疏性似乎不能显着提高可解释性。

Nov, 2019

结构化注意力网络

本文研究了如何将更丰富的结构分布用于深度神经网络中的嵌入式分类推理，通过两种不同的结构注意力网络：线性链条件随机场和基于图形的解析模型的实验，展示了这些结构的注意力网络超过了基线的注意力模型在各种合成和真实任务中的表现。

Feb, 2017

基于高斯分布输入的自然稀疏注意力

通过对注意力机制中稀疏性的理论分析，揭示了注意力分数稀疏性的内在特性及其对计算效率的影响，并为优化大型语言模型的计算框架提供了一个理论检验，为更可扩展和高效的人工智能系统铺平了道路。

Apr, 2024

注意力机制中的边缘最大化

本研究探讨了注意力机制作为令牌分离机制的形式，并论证了运行梯度下降收敛于最大边缘解，同时提出了广泛的正则化路径分析。

Jun, 2023

无概率笼的标准化注意力

本文介绍了 softmax-attention 在几何上的局限性，并提出采用归一化代替 softmax 实现自我注意力，从而获得超参数和数据推断鲁棒性较强的通用结构。

May, 2020

可控稀疏 Softmax 替代方案

研究基于概率分布的机器学习任务中，提出了几种概率映射函数，为了控制稀疏度，开发出了一个统一框架并提出了两种新的 sparse formulations，并在多标签分类场景中开发了新的凸损失函数，用于计算注意力权重，从而在类似神经机器翻译和抽象摘要等标准 seq2seq 任务上获得更好的性能。

Oct, 2018

结构化情感分析的稀疏模糊注意力

通过引入池化层，我们提出了一种稀疏模糊的注意力打分器，改善了结构化情感分析的解析性能，并在该领域取得了最新的最佳表现。此外，我们还探索了二阶解析建模，并引入了一种新的稀疏二阶边缘构建过程，这大大提高了解析性能。

Sep, 2021