Mar, 2024
关于自监督学习的预训练数据多样性
On Pretraining Data Diversity for Self-Supervised Learning
Hasan Abed Al Kader Hammoud, Tuhin Das, Fabio Pizzati, Philip Torr, Adel Bibi...
TL;DR增加训练数据集的多样性可以提高自我监督学习的性能,但前提是下游数据的分布差异很小。即使通过网络爬虫或扩散生成的方法等方式实现了非常庞大的预训练数据多样性,分布的变化仍然是一个挑战。