如何训练您的 ViT 用于异常检测
该研究论文表明,大规模预训练的 transformers 网络可以显著提高深度神经网络在接近 out-of-distribution 检测上的性能,包括基于图像和基因组学数据的任务,并探索了利用少量样本进行 outlier exposure 及为该类任务提供名称信息的方法。
Jun, 2021
本文系统研究了 Vision Transformers 在分布偏移情况下的泛化问题,发现其在背景和纹理上学习的偏差较弱,而对形状和结构的归纳偏差较强,因此在分布偏移情况下,相对于卷积神经网络,具有更好的泛化性能,且使用相同数量的参数,其在大多数类型的分布偏移下,比相应的 CNN 模型高出 5% 以上的准确度。此外,作者还进一步提出了增强泛化性能的 GE-ViTs,其对超参数的敏感度高于相应的 CNN 模型,因此设计了更平滑的学习策略以优化 GE-ViTs 的性能。
Jun, 2021
研究了使用已预训练的 Transformer 模型在域外检测任务上的性能,并发现 Transformer 模型在默认情况下能够实现更高的检测性能。此外,结合改进方法如 CIDER,还可以进一步提升预训练的 ViT 和 CNN 模型在域外检测任务上的性能。结果表明,Transformer 模型作为域外检测的一种有希望的方法,为该任务在许多场景下建立了更强的基准。
Sep, 2023
本文提出了一种使用只有训练集数据的预训练 Transformer 进行无监督的离群检测方法,该方法使用对比度损失调整 Transformer。最终使用马哈拉诺比斯距离来检测异常数据,实验表明,本文方法的性能超过了基准线,并且更紧凑的表示方法是改进的基础。
Apr, 2021
采用对比式图文预训练和端到端检测微调方法,结合扩展的图像预训练和模型尺度的优化,实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。
May, 2022
揭示预训练模型在预训练算法视角下,外分布数据对外分布检测性能的影响,并提出利用实例间鉴别性特征空间独立于 ID 决策边界的方法解决预训练模型的脆弱性。
Oct, 2023
本文通过构建具有现实分布变化的新的鲁棒性基准,系统地测量了七个 NLP 数据集的预训练 Transformers 的 OOD 泛化能力。研究结果表明,Pretrained Transformers 的性能下降显著较小,在检测异常或 OOD 示例方面更加有效,同时发现更多样化的预训练数据可以增强模型的鲁棒性。
Apr, 2020
通过对轻量级视觉 Transformer(ViTs)的掩码图像建模(MIM)预训练方法与对比学习(CL)预训练方法在不同数据规模下的行为对比研究,观察到了 MIM 预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想 Fine-tuning 表现,进而提出了预训练退火策略来解决这一问题,实验证明了该方法在不同视觉任务中的有效性。
Apr, 2024
该论文提出了一种名为 OODformer 的新型 OOD 检测架构,利用 transformer 的上下文能力来区分内部分布和 OOD 样本,通过视觉注意力利用上下文嵌入提高了分类的通用性,在 CIFAR-10 /-100 和 ImageNet30 上取得了新的最先进成果。
Jul, 2021