提出了一种基于平滑的最大值算子的新的稀疏和结构化的注意力机制,它不仅包括 softmax 和稀疏 max 作为特例,还可以融合现代结构惩罚,可以应用于神经网络中,在文本蕴含、机器翻译和句子摘要等任务中表现良好,提高了可解释性并保持性能优越。
May, 2017
本文研究了适用于抽象总结的多头自注意机制的可解释性,介绍了三个度量衡来评估关注头的重要性,发现相对位置的头对总结表现至关重要,不建议弃掉,而强制稀疏性似乎不能显着提高可解释性。
Nov, 2019
提出了基于 alpha-entmax 变换的稀疏序列到序列模型,能产生稀疏的对齐和分配概率到一组合理的输出,这在形态学变化和机器翻译的实验中展现了比密集模型更好的表现。
May, 2019
提出了一种名为显式稀疏 Transformer 的新模型,其通过选择最相关的片段来改进全局上下文的注意力集中度,展示了在自然语言处理和计算机视觉任务方面的优越表现,并实现了与稀疏注意力方法可比或更好的结果,但显著减少了训练和测试时间。
Dec, 2019
本文提出了一种新颖的方法来解决 NMT 中的 “coverage problem”,通过给源语言单词分配 “fertilities” 来限制每个单词可以接收的注意力,同时提出了一种新的稀疏的注意力变换方式 “sparsemax”,并在三种语言对上进行实证评估。
May, 2018
本研究介绍了一种名为 ReLA 的新型的、可实现稀疏注意的模型,该模型采用 ReLU 激活函数来代替 softmax 函数,通过额外的门控函数或专门的初始化实现了训练稳定性。实验结果表明,ReLA 模型在机器翻译任务中表现良好,且实现效率高,同时能够实现高稀疏率和头部多样性。
Apr, 2021
通过对注意力机制中稀疏性的理论分析,揭示了注意力分数稀疏性的内在特性及其对计算效率的影响,并为优化大型语言模型的计算框架提供了一个理论检验,为更可扩展和高效的人工智能系统铺平了道路。
Apr, 2024
本文提出了稀疏最大函数,一种类似传统 softmax 的激活函数,但能够输出稀疏概率,并给出了其特性及其雅可比矩阵的高效计算方法,并提出了一个新的平滑且凸函数作为逻辑损失的稀疏最大函数的对应,同时也发现它与 Huber 分类损失之间的意外联系,本文得到的实验结果表明,在多标签分类和自然语言推断的基于注意力机制的神经网络中,与传统 softmax 相比,采用稀疏最大函数可以获得类似的性能,但具有更精细、更紧凑的注意力焦点。
Feb, 2016
研究将稀疏和单调注意力引入基于 Transformer 的自动语音识别,以克服传统 Transformer 中针对流式识别的自我注意和多头注意的局限性,并在多项基准测试中取得了良好的效果。
Sep, 2022
研究 transformers 中的注意机制对视觉和语言任务的扩展,并发展适应性方法来提高模型的可解释性和计算效率。具体地,研究注意范围、稀疏和结构化 dropout 等方法,以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。
May, 2020