Feb, 2023

基于元素的注意力层:一种优化选项

TL;DR本文提出了一种新的注意力机制,并通过将 Dot-Product Attention 中的矩阵乘法转换成数组乘法来实现元素级别的注意力,从而在保持实验精度的同时减少了网络的参数量。在 Fashion MNIST 和 CIFAR10 数据集上的分类实验中,该方法的结果表明,相对于 VGG 类似结构,神经网络降低了 97% 的参数量,但在 Fashion MNIST 数据集上的分类准确率达到了 92%,而在 CIFAR10 数据集上的分类准确率仍相当于 VGG-like 架构的 60%。