Mar, 2021

稠密预测的视觉 Transformer

TL;DR本文提出了稠密视觉 Transformer(dense vision transformers)作为密集预测任务的主干网络,相对于全卷积网络,该结构以恒定和较高的分辨率处理表示,并在每个阶段具有全局感受野。在单眼深度估计和语义分割任务上,我们的实验表明,该结构在有大量训练数据的情况下能够显着提高性能,是一种大有前途的新型神经网络结构。