Mar, 2024

可扩展和强大的Transformer解码器用于可解释的基础模型图像分类

TL;DR通过使用变形器解码器头和分层混合建模,我们介绍了一种名为Component Features (ComFe)的新型可解释的图像分类方法,能够仅通过全局图像标签,在没有分割或部件注释的情况下识别出一致的图像组件,并确定哪些特征对于做出预测是信息丰富的。我们证明了ComFe在一系列细粒度视觉基准测试中比以前的可解释模型获得更高的准确性,而无需为每个数据集单独调整超参数。我们还展示了ComFe在包括ImageNet在内的一系列数据集上优于非可解释的线性头,并提高了泛化和鲁棒性基准的性能。