神经注意力：利用神经网络增强自注意力机制中的 QKV 计算

Oct, 2023

神经注意力：利用神经网络增强自注意力机制中的 QKV 计算

Neural Attention: Enhancing QKV Calculation in Self-Attention Mechanism with Neural Networks

Muhan Zhang

TL;DR通过神经网络计算 QKV，优化自注意力机制在深度学习中的表现，并在实验中证明了该方法的有效性和潜力。

Abstract

In the realm of deep learning, the self-attention mechanism has substantiated its pivotal role across a myriad of tasks, encompassing natural language processing and computer vision. Despite achieving success acr

deep learning self-attention mechanism qkv computation neural network optimization

发现论文，激发创造

探索有意图的键值查询模型空间

该论文探讨了一种新的神经网络模块，称为 Keys-Values-Queries（KVQ）空间，它是对注意力（Attention）思想的扩展，能够高效地近似许多真实问题，其中包括解决标准最小二乘问题，并成功地应用于从 few-shot learning 到 policy distillation 等各种任务。

May, 2023

上下文感知自注意力网络

通过上下文信息来提高自注意力网络有效性的研究表明，利用内部嵌入全局和深度上下文的方式来上下文化查询和键层变换可以提高翻译任务的性能.

Feb, 2019

文本分类的量子自注意神经网络

本文提出了一种名为 QSANN 的量子自我注意神经网络，它将自我注意机制引入到量子神经网络中，通过高斯投影解决了诸如大规模数据集和句法依赖性网络结构等限制；QSANN 在公共数据集的文本分类任务中表现优越，且具有鲁棒性和可扩展性。

May, 2022

用于高效本地注意力的学习查询

本文提出了一种名为 query and attend（QnA）的新型 shift-invariant local attention 层，将其并入分层视觉 transformer 模型，并证明其在速度和内存复杂度方面的改善，同时又能实现与最先进的模型相当的准确度。

Dec, 2021

键值变换器

通过对 QKV 模式性能进行评估，我们发现一个结合了 2D 位置编码的不对称的 KV 变压器常常比 QKV 变压器更有效且需要更少的参数和计算。

May, 2023

键 - 值记忆增强的神经机器翻译

提出了一种基于键值记忆的注意力机制模型用于神经机器翻译，通过维护及时更新的键内存来跟踪注意力历史和固定值内存来存储源语句的表示，在两个记忆之间进行非平凡的转换和迭代交互，以便每个解码步骤时，可以关注更合适的源单词来预测下一个目标单词从而提高翻译的适用性。在中英文和 WMT17 德英翻译任务的实验结果表明了所提出的模型的优越性。

Jun, 2018

QANet: 将局部卷积和全局自注意力相结合用于阅读理解

本文提出一种名为 QANet 的新型机器阅读和问答架构，它没有使用循环神经网络，而是仅由卷积神经网络和自注意力机制组成，可在训练和推理期间实现更快的速度，并在测试集上实现了 84.6 F1 得分，超过了最佳发布 F1 得分 81.8。

Apr, 2018

易用注意力：Transformer 模型的简易自注意机制

提出一种名为 easy attention 的新型注意机制，用于改进用于预测混沌系统时间动态的 Transformer 神经网络，通过自注意力机制直接将注意力得分作为可学习参数，具有更强的鲁棒性和较低的复杂性，适用于重建和预测混沌系统的时间动态。

Aug, 2023

KVT：使用 k-NN 注意力增强视觉 Transformers

本文提出了一种 K-NN 自注意力机制，具有更好的速度和准确率，且适用于各种不同种类的 transformer 结构，从而可以提高图像识别的性能。

May, 2021

深度网络中空间注意机制的实证研究

本篇论文对注意力机制的实现方法进行了实证研究，发现空间注意力及注意力机制中的关键内容对比对深度神经网络的性能影响显著，为注意力机制的进一步研究及设计提供了新的思路和方向。

Apr, 2019