Jul, 2024

解决深度视觉模型中的一个基本限制:缺乏空间注意力

TL;DR当前深度学习模型在处理图像时存在的重要局限性是它们无法像人类视觉一样,高效地只选择必要的视觉区域进行处理,导致速度慢且能耗高。本文从广泛的角度考察了这个问题,并提出了解决方案,为下一代更高效的视觉模型铺平了道路。基本上,本文采用了选择性地对变换后的区域进行卷积和池化操作,并将变化图传递给后续层次。这个图指示了哪些计算需要重复执行。源代码可在此 URL 进行查看。