Nov, 2021

离散表示增强视觉 Transformer 的鲁棒性

TL;DR本文介绍了如何通过在 ViT 的输入层添加离散 token 的方法来提高其对全局信息的学习和对真实世界数据的泛化能力,并通过实验证明对于七个 ImageNet 鲁棒性基准测试,该改进方法能够让 ViT 的鲁棒性提高最多 12%,同时不影响在 ImageNet 上的性能表现。