半监督视觉 Transformer
该研究探讨了图像 Transformer(ViT)的半监督学习(SSL),提出了一种新的 SSL 流程和一种概率伪混合机制,Semi-ViT 可以实现与卷积神经网络相媲美或更好的性能,并且具有可扩展性。
Aug, 2022
通过将 Transformer 模型逐步转化为基于卷积的模型,进行经验证实验表明,命名为 Visformer 的新架构比 Transformer 模型和卷积模型在 ImageNet 分类准确性方面表现更佳,尤其是当模型复杂度较低或者训练集较小时。
Apr, 2021
本研究探讨了 Semi-ViT,一种使用半监督学习技术微调 ViT 模型的图像分类方法,该方法更适用于缺乏注释数据的情况,特别是在电子商务等领域。我们的研究发现,即使在有限的注释数据的情况下,Semi-ViT 的性能也优于传统卷积神经网络(CNN)和 ViT。这些发现表明,Semi-ViT 在需要精细分类视觉数据的应用领域具有重要的应用前景。
May, 2023
本研究介绍了一种简单而有效的半监督医学图像分割框架,通过引入 CNN 和 Transformer 之间的交叉教学,将一个网络的预测作为伪标签来直接监督另一个网络,实验结果表明我们的方法在公共基准上优于八种现有的半监督学习方法,具有非常有前途的应用前景。
Dec, 2021
本文提出 HyperTransformer,一种基于 Transformer 的监督和半监督 few-shot 学习模型,该模型直接从 support 样本中生成卷积神经网络(CNN)的权重。通过将小型生成的 CNN 模型对特定任务的依赖性编码为高容量 Transformer 模型,我们有效地将庞大的任务空间的复杂性与个体任务的复杂性分离。对于小目标 CNN 架构而言,我们的方法特别有效,因为学习固定的通用任务无关嵌入并不是最优决策,而在任务的信息可以调节所有模型参数时,会获得更好的性能。对于更大的模型,我们发现仅生成最后一层便可产生具有与现有技术类似或更好结果的端对端可微分的模型。
Jan, 2022
该论文提出了一种新的分类方法,使用 Conviformer 和 PreSizer 处理高维度植物图像,实现细粒度植物图像分类,最终在 Herbarium 和 iNaturalist 数据集上取得了 SoTA 效果。
Aug, 2022
CLUSTERFORMER 是一种基于 CLUSTERING 范例和 TransFORMER 的通用视觉模型,通过递归更新聚类中心和基于相似度的指标来实现图像分类、目标检测和图像分割等多样化视觉任务的性能提升,并说明其在各项指标上优于其他专门化架构,为计算机视觉中的通用模型带来了范式转变。
Sep, 2023
本研究提出了一种新型的视频分类模型 ——UniFormer,它集成了 3D 卷积和自注意力机制的优点,通过浅层和深层分别学习本地和全局特征,从而在计算量和准确性之间取得了理想的平衡,经实验证明该模型的泛化和针对性能均优于其他方法。
Jan, 2022
该论文通过展示如何使用双流 Transformer 和联合旋转不变性和对抗优化过程,实现了在 Brain-Score 2022 竞赛中排名第二,并在所有视觉类别中平均排名第一的第一个位置,并且在 V4 区域的可解释方差方面取得了最高的成绩。同时,该模型在 V4,IT 和 Behavior 方面的解释方差也优于 ResNet50 模型。此外,通过几项额外实验,论文支持了一个 “所有道路通往罗马” 的论点,这是通过联合优化规则来实现的,即使对于像 Vision Transformers 这样的非生物学模型。
Mar, 2022
我们提出了一种使用单一模型联合学习图像和视频的方法,该方法采用了批量图像输入和通过深度融合来进行时间聚合的视频帧集合。通过实验结果展示了在两个图像数据集和两个动作识别数据集上的效果。
Aug, 2023