Oct, 2023

自监督表征学习的线性分隔能力

TL;DR研究表明,自监督学习和数据增强在从无标签数据中学习数据表示方面具有高效性,通过在这些增强表示之上训练线性模型可以得到熟练的分类器。本文探究了数据增强如何在多流形模型中实现线性分离,发现数据增强提供了超越观察数据的额外信息,可以改善线性分离能力。自监督学习可以通过更小的距离线性分离流形,并强调数据增强的附加好处。理论分析进一步证明下游线性分类器的性能主要取决于数据表示的线性可分性,而不仅仅是标记数据集的大小,验证了在广阔的无标签数据集中利用有限标记数据构建高效分类器的可行性。