ICLRJun, 2022

稀疏专家组合是具有领域普适性的学习器

TL;DR本文提出了一种基于视觉 Transformer 的领域泛化模型 GMoE,通过研究架构与数据集中相关性的一致性来表征网络的抗干扰性;实验表明 GMoE 使用 ERM 训练的性能大幅优于 SOTA DG 基线,并且在使用新的 DG 算法进行训练时其性能有了显著改善。