体积变换网络

ECCVJul, 2020

Volumetric Transformer Networks

Seungryong Kim, Sabine Süsstrunk, Mathieu Salzmann

TL;DR本文介绍了一种学习型模块（VTN，即体积变形网络），以预测通道级扭曲场，从而在空间和通道层面上重新配置 CNN 特征，改善空间不变性技术在大规模对象识别中的限制。经实验证明，VTN 不断提升模型性能和图像识别和检索的精度。

Abstract

Existing techniques to encode spatial invariance within deep convolutional neural networks (CNNs) apply the same warping field to all the feature channels. This does not account for the fact that the individual feature channels can represent different semantic parts, which can undergo

deep convolutional neural networks volumetric transformer network fine-grained image recognition instance-level image retrieval spatial invariance

发现论文，激发创造

空间变换网络

引入一种新的可学习模块 ——Spatial Transformer，能够在现有的卷积网络结构中显式地允许对数据进行空间操作，从而使得模型得以学习对于平移、缩放、旋转以及基于更一般的扭曲变换的不变性，其模型表现在多个基准测试数据集上达到了最先进的水平。

Jun, 2015

可变瓶颈网络

本文提出了一种新型的卷积神经网络 —— 可变形瓶颈网络（TBN），通过将给定空间变换直接应用于我们的编码器 - 瓶颈 - 解码器架构中的体积瓶颈，从而实现对图像内容进行细粒度的 3D 操作，其多视图监督使网络学习对瓶颈内的特征空间进行空间解缠，并且我们通过在多方面展示了 TBN 的有效性，最终从单个输入图像中提取出显式的 3D 结构。

Apr, 2019

变分转换器网络用于布局生成

采用自注意力机制，提出了变分转换网络方法，可用于生成各种类型的布局，并可应用于文档布局检测管道中。

Apr, 2021

用于图像分类和搜索的变换不变卷积神经网络

该研究提出了在卷积神经网络的训练阶段中随机转换特征图以增强模型对空间变换的不变性，从而显著提高了 CNN 在图片识别等许多基准任务上的表现。

Nov, 2019

使用 Transformer 进行体素级别视角选择和融合的体积式 3D 重建

通过学习条件于相机姿态和图像内容的视图融合功能，利用变压器提出端到端体积三维重建网络 VoRTX，其模型鲁棒性强，处理视角多样，能保留更多的细节信息，比现有最先进方法更出色。

Dec, 2021

基于 Transformer 的多视角三维重建

本文提出了一种名为 3D Volume Transformer（VolT）的新框架，将多视角 3D 重建转化成了序列到序列的预测问题，并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上，我们的方法比其他基于 CNN 的方法使用更少的参数（减少了 70%），实现了新的多视角重建的最新精度。

Mar, 2021

视频变形网络

本文提出了一种基于 Transformer 的视频识别框架 VTN，它相比于传统的 3D ConvNets，通过整个视频序列的注意力机制实现动作分类，并在训练和推断时分别快 16.1 倍和 5.1 倍，同时在 Kinetics-400 数据集上获得了有竞争力的结果，表明了精度和推断速度之间的权衡。

Feb, 2021

CT-Net: 基于通道张量化的视频分类网络

本研究提出 Channel Tensorization Network (CT-Net)，通过将输入特征的通道维度视为 K 个子维度的乘积来分解卷积，从而轻量化计算量，有效增强不同通道的特征交互，并逐步扩大 3D receptive field，以提高视频分类准确率。在几个具有挑战性的视频基准中（如 Kinetics-400，Something-Something V1 和 V2）的实验中表明，相较于其他最新的方法，CT-Net 在准确性和效率方面表现更优。

Jun, 2021

ViT-V-Net: 用于无监督容积医学图像配准的视觉变换器

该论文提出了一种基于 ViT 和 ConvNets 的新架构 ViT-V-Net，实现了类医学图像的体积重建。实验结果表明，该方法在图像配准任务中具有优异的性能。

Apr, 2021

扭曲卷积：对空间变换的高效不变性

使用常量图像变形后接简单卷积的方法可以使该架构等变于广泛的双参数空间变形，此方法在 Google Earth 数据集和 Annotated Facial Landmarks in the Wild 数据集中都呈现出良好的效果。

Sep, 2016