一种用于稀疏和结构化神经注意力的正则化框架
本文提出了稀疏最大函数,一种类似传统 softmax 的激活函数,但能够输出稀疏概率,并给出了其特性及其雅可比矩阵的高效计算方法,并提出了一个新的平滑且凸函数作为逻辑损失的稀疏最大函数的对应,同时也发现它与 Huber 分类损失之间的意外联系,本文得到的实验结果表明,在多标签分类和自然语言推断的基于注意力机制的神经网络中,与传统 softmax 相比,采用稀疏最大函数可以获得类似的性能,但具有更精细、更紧凑的注意力焦点。
Feb, 2016
本文提出了一种新颖的方法来解决 NMT 中的 “coverage problem”,通过给源语言单词分配 “fertilities” 来限制每个单词可以接收的注意力,同时提出了一种新的稀疏的注意力变换方式 “sparsemax”,并在三种语言对上进行实证评估。
May, 2018
介绍了自适应稀疏转换器,使用 α-entmax 代替 softmax,可以适应性地学习头部偏爱的结构,并改善了 softmax 转换器在机器翻译数据集上的可解释性和头部多样性。
Aug, 2019
本文研究了适用于抽象总结的多头自注意机制的可解释性,介绍了三个度量衡来评估关注头的重要性,发现相对位置的头对总结表现至关重要,不建议弃掉,而强制稀疏性似乎不能显着提高可解释性。
Nov, 2019
本文研究了如何将更丰富的结构分布用于深度神经网络中的嵌入式分类推理,通过两种不同的结构注意力网络:线性链条件随机场和基于图形的解析模型的实验,展示了这些结构的注意力网络超过了基线的注意力模型在各种合成和真实任务中的表现。
Feb, 2017
通过对注意力机制中稀疏性的理论分析,揭示了注意力分数稀疏性的内在特性及其对计算效率的影响,并为优化大型语言模型的计算框架提供了一个理论检验,为更可扩展和高效的人工智能系统铺平了道路。
Apr, 2024
本文介绍了 softmax-attention 在几何上的局限性,并提出采用归一化代替 softmax 实现自我注意力,从而获得超参数和数据推断鲁棒性较强的通用结构。
May, 2020
研究基于概率分布的机器学习任务中,提出了几种概率映射函数,为了控制稀疏度,开发出了一个统一框架并提出了两种新的 sparse formulations,并在多标签分类场景中开发了新的凸损失函数,用于计算注意力权重,从而在类似神经机器翻译和抽象摘要等标准 seq2seq 任务上获得更好的性能。
Oct, 2018
通过引入池化层,我们提出了一种稀疏模糊的注意力打分器,改善了结构化情感分析的解析性能,并在该领域取得了最新的最佳表现。此外,我们还探索了二阶解析建模,并引入了一种新的稀疏二阶边缘构建过程,这大大提高了解析性能。
Sep, 2021