键值变换器

May, 2023

Key-Value Transformer

Ali Borji

TL;DR通过对 QKV 模式性能进行评估，我们发现一个结合了 2D 位置编码的不对称的 KV 变压器常常比 QKV 变压器更有效且需要更少的参数和计算。

Abstract

transformers have emerged as the prevailing standard solution for various AI tasks, including computer vision and natural language processing. The widely adopted Query, Key, and Value formulation (qkv) has played

transformers qkv kv asymmetric efficient

发现论文，激发创造

GQKVA: 通过分组查询、键和值高效预训练 Transformer

GQKVA 是一种多功能方法，旨在加速 transformer 的预训练并减小模型大小，其实验结果表明 GQKVA 在图像分类任务中可以提高大约 0.3% 的准确度并减小约 4% 的模型大小。

Nov, 2023

视觉 Transformer 中钥匙的流形表示

该研究通过解耦键值查询，采取流形表示的方式，探索了视觉 Transformer 模型性能的提升，实验证明这种方法可以显著增加模型在图片分类、目标检测和实例分割任务中的准确性。

Feb, 2024

Transformer 模型的查询键归一化

本文提出 QKNorm 方法，对 Transformer 神经网络的 attention 机制进行优化，在不损失表现力情况下，通过可以学习的参数替代平方根作为归一化时分母，减小了 softmax 函数的任意性饱和，实验表明在 5 种语言翻译任务中，较之前最先进的方法，BLEU 平均提高了 0.928 个点

Oct, 2020

探索有意图的键值查询模型空间

该论文探讨了一种新的神经网络模块，称为 Keys-Values-Queries（KVQ）空间，它是对注意力（Attention）思想的扩展，能够高效地近似许多真实问题，其中包括解决标准最小二乘问题，并成功地应用于从 few-shot learning 到 policy distillation 等各种任务。

May, 2023

RWKV：为 Transformer 时代重新设计 RNN

本文提出了一种名为 Receptance Weighted Key Value（RWKV）的新型模型体系结构，它将 Transformer 的并行训练与 RNN 的高效推理相结合，并利用了线性注意机制，使模型既可以被阐释为 Transformer，也可以被阐释为 RNN，从而在训练期间并行计算，并在推理期间保持计算和记忆的复杂度恒定，从而成为第一个可扩展到数十亿参数的非 Transformer 架构，实验表明，RWKV 的表现与同样大小的 Transformer 相当，在序列处理任务中为权衡计算效率和模型性能迈出了重要的一步。

May, 2023

一种基于问答的表单图像键值对提取方法

本文提出了一种新的基于问题回答的键值对提取方法 KVPFormer，使用 Transformer 编码器识别关键实体，通过 Transformer 解码器预测对应的答案，并进一步提出了粗细阶段答案预测方法和空间兼容性注意力偏差方法，从而在 FUNSD 和 XFUND 数据集上取得了优于先前最佳方法的 7.2％和 13.2％的 F1 得分，获得最新的结果。

Apr, 2023

RRWKV: 捕捉 RWKV 中的长程依赖

本文提出了回顾性接收加权键值（RRWKV）架构，通过将回顾能力融入到 RWKV 中，有效地吸收信息，同时保持存储和计算效率，从而解决了 RWKV 架构的局限性，能够更好地捕捉长程依赖。

Jun, 2023

KVT：使用 k-NN 注意力增强视觉 Transformers

本文提出了一种 K-NN 自注意力机制，具有更好的速度和准确率，且适用于各种不同种类的 transformer 结构，从而可以提高图像识别的性能。

May, 2021

利用 Transformer 中的归纳偏置基于 VAEs 无监督地解离句法和语义

该研究提出了一种生成模型，展示了句法和语义的解耦合潜在表示，通过 Transformers 中注意力机制的归纳偏差生成文本，证明该模型对语法和语义具有明显的解耦效果，与有监督模型相比，具有较高的语法传递能力。

May, 2022

理解和改善知识蒸馏，针对大型 Transformer 编码器的量化感知训练

本文提出了两种知识蒸馏方法，即注意力映射和注意力输出损失，并探索了两者的统一，以解决注意力重构的不足。实验结果表明，这两种知识蒸馏方法可以在使用小于 2 位的量化权重时，获得具有先进性的精度。

Nov, 2022