Existing techniques to encode spatial invariance within deep convolutional
neural networks (CNNs) apply the same warping field to all the feature
channels. This does not account for the fact that the individual feature
channels can represent different semantic parts, which can undergo
本文提出了一种名为 3D Volume Transformer(VolT)的新框架,将多视角 3D 重建转化成了序列到序列的预测问题,并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上,我们的方法比其他基于 CNN 的方法使用更少的参数(减少了 70%),实现了新的多视角重建的最新精度。