HyperTransformer: 监督和半监督少样本学习的模型生成

Jan, 2022

HyperTransformer: 监督和半监督少样本学习的模型生成

HyperTransformer: Model Generation for Supervised and Semi-Supervised Few-Shot Learning

Andrey Zhmoginov, Mark Sandler, Max Vladymyrov

TL;DR本文提出 HyperTransformer，一种基于 Transformer 的监督和半监督 few-shot 学习模型，该模型直接从 support 样本中生成卷积神经网络（CNN）的权重。通过将小型生成的 CNN 模型对特定任务的依赖性编码为高容量 Transformer 模型，我们有效地将庞大的任务空间的复杂性与个体任务的复杂性分离。对于小目标 CNN 架构而言，我们的方法特别有效，因为学习固定的通用任务无关嵌入并不是最优决策，而在任务的信息可以调节所有模型参数时，会获得更好的性能。对于更大的模型，我们发现仅生成最后一层便可产生具有与现有技术类似或更好结果的端对端可微分的模型。

Abstract

In this work we propose a hypertransformer, a transformer-based model for supervised and semi-→

hypertransformer few-shot learning transformer-based model convolutional neural network supervised

发现论文，激发创造

简单即美好：利用分类器权重变换进行小样本语义分割

研究了在只提供极少量的图像支持集的情况下，如何用预训练好的编码器和解码器结合分类器元学习来执行语义分割。

Aug, 2021

半监督视觉 Transformer

本文研究了视觉 Transformer 在半监督图像分类中的训练方法，通过引入一个联合半监督学习框架 Semiformer，实现了有标记数据与无标记数据的知识共享，从而取得了 ImageNet 数据集上 75.5% 的 top-1 准确率，成为同类方法中最具优势的方法之一。

Nov, 2021

利用 Transformer 提升 Few-shot 语义分割

本文提出了一种基于 TRansformer 网络的 Few-shot 语义分割方法（TRFS），它采用全局增强模块（GEM）和局部增强模块（LEM）相结合的方法，可以在 PASCAL-5i 和 COCO 数据集上取得新的最优表现。

Aug, 2021

驯服 Transformer 的高分辨率图像合成

结合卷积神经网络与 transformers 模型的特点，实现了生成高分辨率图像的任务，并取得了 ImageNet 中类别有条件下的自回归模型的最优结果

Dec, 2020

ConvTransformer: 用于视频帧合成的卷积变换器网络

本文提出了一种名为 ConvTransformer 的深层卷积神经网络结构，通过注意力机制学习序列数据之间的依赖关系，用于视频帧合成，相较于传统的卷积 LSTM 方法可实现更好的并行计算效果。

Nov, 2020

半监督医学图像分割：基于 CNN 与 Transformer 的交叉教学

本研究介绍了一种简单而有效的半监督医学图像分割框架，通过引入 CNN 和 Transformer 之间的交叉教学，将一个网络的预测作为伪标签来直接监督另一个网络，实验结果表明我们的方法在公共基准上优于八种现有的半监督学习方法，具有非常有前途的应用前景。

Dec, 2021

CrossTransformers: 空间感知的少样本迁移

本文研究了现代视觉系统的表现下降原因：监督学习时神经网络模型表示出现了监督崩溃现象，即模型丢失了一些与训练任务无关但对多任务或多领域转移有用的信息。作者提出了两种方法来缓解该问题：一是利用自监视学习以鼓励更通用的特征，二是提出了一种新型的基于 Transformer 的神经网络结构 CrossTransformers，可以用少量标记图像和无标记查询项，找到查询项与标记图像之间的粗略空间对应关系，从而通过计算空间对应特征之间的距离来推断其分类。结果是得到一个更加适应任务和领域转移的分类器，证明了在 Meta-Dataset 上的最新成果。

Jul, 2020

一种轻量级的 CNN-Transformer 模型用于学习旅行商问题

本研究提出了一种基于 CNN 嵌入层和局部自注意力的轻量级 CNN-Transformer 模型，相对于标准 Transformer 模型，该模型能够更好地从输入数据中学习空间特征，同时通过局部自注意力减少全连接注意模型中的冗余性。实验结果表明，我们提出的模型在解决 TSP 问题的质量、GPU 内存使用和推理时间等方面优于其他最先进的 Transformer-based 模型。

May, 2023

鲁棒变换器方法的小样本增量学习

在本研究中，提出了一种鲁棒的变换器方法（ROBUSTA）来解决少样本分类增量学习问题，其中利用随机分类器、稳定训练过程的批归一化层以及小任务特定可训练参数（delta parameters）来克服过拟合和遗忘问题，并通过非参数方法推断模型预测的 delta 参数。通过一系列实验验证了 ROBUSTA 在基准问题上的优势，且无需数据增强方法即可显著超越先前的方法。

May, 2024

TransMatch: 半监督少样本学习的迁移学习方案

本文提出了一种新的半监督少样本学习的转移学习框架，用于充分利用标记基础分类数据和未标记新类数据的辅助信息，并基于该框架开发了一种称为 TransMatch 的新方法，通过 Imprinting 和 MixMatch 实例化三个组件，实验结果表明，该方法可以显著提高少样本学习任务的准确度。

Dec, 2019