Jul, 2022
重新思考轻量级非局部神经网络中 Softmax 的有效性
Rethinking Efficacy of Softmax for Lightweight Non-Local Neural Networks
Yooshin Cho, Youngsoo Kim, Hanbyel Cho, Jaesung Ahn, Hyeong Gwon Hong...
TL;DR本文通过实验证明 NL block 中 softmax 操作效率低下,提出使用 scaling factor 来优化 attention maps,取得了在 CIFAR-10、CIFAR-100 和 Tiny-ImageNet 数据集上的改进,并且在多头注意力下没有额外的计算成本。