该论文探讨了一种新的神经网络模块,称为 Keys-Values-Queries(KVQ)空间,它是对注意力(Attention)思想的扩展,能够高效地近似许多真实问题,其中包括解决标准最小二乘问题,并成功地应用于从 few-shot learning 到 policy distillation 等各种任务。
May, 2023
通过上下文信息来提高自注意力网络有效性的研究表明,利用内部嵌入全局和深度上下文的方式来上下文化查询和键层变换可以提高翻译任务的性能.
Feb, 2019
本文提出了一种名为 QSANN 的量子自我注意神经网络,它将自我注意机制引入到量子神经网络中,通过高斯投影解决了诸如大规模数据集和句法依赖性网络结构等限制;QSANN 在公共数据集的文本分类任务中表现优越,且具有鲁棒性和可扩展性。
May, 2022
本文提出了一种名为 query and attend(QnA)的新型 shift-invariant local attention 层,将其并入分层视觉 transformer 模型,并证明其在速度和内存复杂度方面的改善,同时又能实现与最先进的模型相当的准确度。
Dec, 2021
通过对 QKV 模式性能进行评估,我们发现一个结合了 2D 位置编码的不对称的 KV 变压器常常比 QKV 变压器更有效且需要更少的参数和计算。
提出了一种基于键值记忆的注意力机制模型用于神经机器翻译,通过维护及时更新的键内存来跟踪注意力历史和固定值内存来存储源语句的表示,在两个记忆之间进行非平凡的转换和迭代交互,以便每个解码步骤时,可以关注更合适的源单词来预测下一个目标单词从而提高翻译的适用性。在中英文和 WMT17 德英翻译任务的实验结果表明了所提出的模型的优越性。
Jun, 2018
本文提出一种名为 QANet 的新型机器阅读和问答架构,它没有使用循环神经网络,而是仅由卷积神经网络和自注意力机制组成,可在训练和推理期间实现更快的速度,并在测试集上实现了 84.6 F1 得分,超过了最佳发布 F1 得分 81.8。
Apr, 2018
提出一种名为 easy attention 的新型注意机制,用于改进用于预测混沌系统时间动态的 Transformer 神经网络,通过自注意力机制直接将注意力得分作为可学习参数,具有更强的鲁棒性和较低的复杂性,适用于重建和预测混沌系统的时间动态。
Aug, 2023
本文提出了一种 K-NN 自注意力机制,具有更好的速度和准确率,且适用于各种不同种类的 transformer 结构,从而可以提高图像识别的性能。
May, 2021
本篇论文对注意力机制的实现方法进行了实证研究,发现空间注意力及注意力机制中的关键内容对比对深度神经网络的性能影响显著,为注意力机制的进一步研究及设计提供了新的思路和方向。
Apr, 2019