InstaFormer：具有 Transformer 的实例感知图像翻译

CVPRMar, 2022

InstaFormer：具有 Transformer 的实例感知图像翻译

InstaFormer: Instance-Aware Image-to-Image Translation with Transformer

Soohyun Kim, Jongbeom Baek, Jihye Park, Gyeongnyeon Kim, Seungryong Kim

TL;DR提出了一种新型的基于 Transformer 的网络结构 InstaFormer，用于实例感知的图像到图像的转换，可以有效地整合全局和实例级信息，通过自注意力模块在 Transformers 中考虑上下文信息，通过将通过边界框信息从内容特征中提取的实例级特征与这些标记相结合，我们的框架能够学习对象实例和全局图像之间的互动，从而提高实例感知能力，同时在标准 Transformer 中使用自适应实例归一化（AdaIN）代替层规范化（LayerNorm），以启用具有风格编码的多模式翻译。另外，为了提高实例感知能力和物体区域的翻译质量，介绍了一种实例级内容对比损失，定义了输入图像和翻译图像之间的对比损失。实验表明，与最新方法相比，我们的 InstaFormer 具有更好的性能。

Abstract

We present a novel transformer-based network architecture for instance-aware image-to-image translation, dubbed InstaFormer, to effectively integrate global- and instance-level information. By considering extracted content features from an image as tokens, our networks discover global

transformer-based network architecture instance-aware image-to-image translation self-attention module object instances content contrastive loss

发现论文，激发创造

InstaGAN：基于实例的图像翻译

本文提出了一种新的方法 ——instance-aware GAN（InstaGAN），通过引入实例信息和改进多实例转化来翻译图像和相应的实例属性，同时保持实例的排列不变性，并展示了该方法对不同图像数据集的有效性。

Dec, 2018

U-GAT-IT：自适应层 - 实例归一化的无监督生成式注意力网络用于图像翻译

本文提出了一种新的无监督图像到图像的转换方法，它通过引入一个新的注意力模块和一个可学习的规范化函数，以端对端的方式来实现。

Jul, 2019

T-former：一种高效的图像修复变形器

本文中，我们设计了一种新的基于注意力的线性结构，称为 T-former，用于图像修复，实验表明该方法在保持较低的参数数量和计算复杂度的同时，实现了最先进的精度。

May, 2023

MatchFormer: 用于特征匹配的变形金刚中的交错注意力

本文提出了一种新的层次化提取和匹配变形器 MatchFormer 来提高局部特征匹配的效率和鲁棒性，该方法结合自注意力和跨注意力在多尺度特征的层次化架构上提高匹配鲁棒性，并在室内姿势评估、室外姿势评估、单应性评估和图像匹配检测四个基准测试中均取得 state-of-the-art 的结果。

Mar, 2022

MIA-Former: 多粒度输入适应的高效和鲁棒视觉 Transformer

本文提出了一种多粒度输入自适应 Transformer 框架 MIA-Former，可以在多个粒度上调整 ViTs 的结构以适应输入图像的不同难度，并且具有改进对抗攻击鲁棒性的效果。经过实验验证，MIA-Former 能够有效地分配计算资源，并取得与 SOTA 动态 Transformer 模型相比甚至更高的准确率和更低的计算复杂度。

Dec, 2021

Inception Transformer

文章提出了一种名为 iFormer 的基于 Inception 的 Transformer 架构，通过一种名为 Inception mixer 的操作使得网络能够更好地捕捉高频信息和低频信息，加入了渐进降低高频分量和增加低频分量的结构，并在图像分类等任务上取得了非常优秀的表现。

May, 2022

AutoFormer: 为视觉识别搜索 Transformer

本文提出了一种名为 AutoFormer 的新一代架构搜索框架，该框架是针对视觉分类和检测任务中 transformer 网络设计的，通过优化 supernet 让数千个子网络获得很好的训练，最终得到的 AutoFormers 模型在 ImageNet 数据集上取得了比 ViT 和 DeiT 更高的性能，且具有良好的迁移性能和蒸馏实验性能。

Jul, 2021

UniFormer：用于高效时空表示学习的统一 Transformer

本研究提出了一种新型的视频分类模型 ——UniFormer，它集成了 3D 卷积和自注意力机制的优点，通过浅层和深层分别学习本地和全局特征，从而在计算量和准确性之间取得了理想的平衡，经实验证明该模型的泛化和针对性能均优于其他方法。

Jan, 2022

Mobile-Former：连接 MobileNet 和 Transformer

Mobile-Former 是一种结合 MobileNet 和 Transformer 的二元桥设计，其具有较低的计算成本和更强的表示能力，可以用于图像分类和对象检测，并在低 FLOP 区间内胜过 MobileNetV3 以及传统目标检测框架 DETR

Aug, 2021

ActionFormer：使用 Transformers 定位行为片段

ActionFormer 是一种基于 Transformer 网络的模型，采用了多尺度特征表示和本地自我注意力机制来识别视频中的动作。它在 THUMOS14 上取得了 71.0％ mAP，在 ActivityNet 1.3 和 EPIC-Kitchens 100 中也表现出色。

Feb, 2022