Jul, 2022

重新思考轻量级非局部神经网络中 Softmax 的有效性

TL;DR本文通过实验证明 NL block 中 softmax 操作效率低下,提出使用 scaling factor 来优化 attention maps,取得了在 CIFAR-10、CIFAR-100 和 Tiny-ImageNet 数据集上的改进,并且在多头注意力下没有额外的计算成本。