Nov, 2023

自监督解缠:利用数据增强中的结构

TL;DR自我监督表示学习经常使用数据增强来诱导对数据的 “风格” 属性的某种不变性。然而,由于在训练时通常不知道下游任务,很难事先推断哪些属性实际上是 “风格”,并且可以安全地丢弃。为了解决这个问题,我们引入了一种更有原则性的方法,旨在解开 “风格” 特征而不是丢弃它们。关键思想是添加多个风格嵌入空间,其中:(i)每个空间对除一个增强操作外都不变;(ii)联合熵被最大化。我们从因果潜变量模型的角度形式化了我们的结构化数据增强过程,并证明了内容和(多个模块的)风格变量的可辨识性。我们在合成数据集上通过实验证明了我们方法的好处,然后在 ImageNet 上展示了有限但有希望的结果。