本研究利用四个真实世界的数据集,对四种深度神经网络模型进行了深入比较研究,探讨了它们各自利用不同基本元素(图卷积,图注意力,循环单元或注意机制)对交通预测问题的性能影响。结果表明,使用图注意力的基础模型在长期预测中表现更好,对于 RNN-based 模型选择图卷积和图注意力有着更大的影响,并且我们发现,我们修改后的 GMAN 在内存消耗更少的情况下表现出与原始模型相当的性能。
Nov, 2021
通过研究注意力矩阵中不同位置的重要性,我们提出了可重构性较强的 Transformer 模型 SparseBERT,并给出了 Differentiable Attention Mask 算法以进一步指导模型的设计。我们证明了对角线元素可以被移除,而不影响模型的性能。通过广泛实验,证实了我们的有趣发现和算法的有效性。
Feb, 2021
本文介绍了一种新的自我注意力模块,使用一种明确建模的注意力映射,利用几何先验来提高图像分类的准确性,实验证明该方法在 ImageNet ILSVRC 中的准确性提升了 2.2%,在参数和计算量分别减少 6.4% 和 6.7% 的情况下,相对于 AA-ResNet152 准确率提高了 0.9%。
Jun, 2020
本研究分析了四种注意力机制和三种 CNN 模型,针对心率预测中的分类和回归两个问题评估了多种组合,并验证了卷积操作和注意力机制的互补性以及提供更快的收敛时间,尽管单独的自注意模型需要更少的参数。
Jul, 2022
研究表明摘要任务中有稀疏的句子结构,可以用部分输入句子来限制编码器 - 解码器注意机制,并保持系统性能。
Sep, 2021
通过在医学图像上扩展卷积神经网络结构,研究了自注意机制的应用,发现仅仅加入自注意机制并不能提升现有的完全卷积方法的性能。
Apr, 2024
本文研究了注意力机制的基本构建块及其计算性质,提出三种最重要的机制:加性激活注意力,乘性输出注意力(输出门控)和乘性突触注意力(突触门控),并证明加性激活注意是基本电路的下限证明中的重要角色。
Feb, 2022
本文针对使用卷积操作在视觉任务中只关注局部局部信息、缺乏全局信息的不足,提出运用自注意力机制对视觉任务进行处理的方法;通过在图像分类和目标检测任务中实现卷积和自注意力的融合,可有效提高模型精度。
Apr, 2019
提出一种名为 easy attention 的新型注意机制,用于改进用于预测混沌系统时间动态的 Transformer 神经网络,通过自注意力机制直接将注意力得分作为可学习参数,具有更强的鲁棒性和较低的复杂性,适用于重建和预测混沌系统的时间动态。
Aug, 2023
本研究提出了一种可解释的方法,能够可视化神经网络中的内在机制和其对输出的影响,从而提高了深度神经网络的可解释性和决策过程,研究的主要贡献是提出了一种数据集中心的算法,适用于多个领域的深度神经网络结构。
Jun, 2017