May, 2024
自监督学习的自动数据整理:一种基于聚类的方法
Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach
Huy V. Vo, Vasil Khalidov, Timothée Darcet, Théo Moutakanni, Nikita Smetanin...
TL;DR自我监督特征是现代机器学习系统的基石,本文提出了一种基于聚类的自动化数据精选方法,通过在大规模和多样化的数据库上应用层次聚类和均衡采样的步骤,构建了大型、多样化且均衡的数据集,实验证明基于这种自动化精选的数据集训练得到的特征在三个不同领域的数据表现优于未精选数据的训练特征,且与手工精选数据的特征相当甚至更好。