Jan, 2022

HyperTransformer: 监督和半监督少样本学习的模型生成

TL;DR本文提出 HyperTransformer,一种基于 Transformer 的监督和半监督 few-shot 学习模型,该模型直接从 support 样本中生成卷积神经网络(CNN)的权重。通过将小型生成的 CNN 模型对特定任务的依赖性编码为高容量 Transformer 模型,我们有效地将庞大的任务空间的复杂性与个体任务的复杂性分离。对于小目标 CNN 架构而言,我们的方法特别有效,因为学习固定的通用任务无关嵌入并不是最优决策,而在任务的信息可以调节所有模型参数时,会获得更好的性能。对于更大的模型,我们发现仅生成最后一层便可产生具有与现有技术类似或更好结果的端对端可微分的模型。