May, 2024

谁在内部谁在外部?DataComp 中多模态 CLIP 过滤的案例研究

TL;DR我们的研究发现,数据过滤方法在图像和文本领域也存在偏见和价值观,并且与一些边缘群体相关的数据更容易被排除。此外,我们还发现现有的数据过滤方法可能加剧数据收集中存在的不平衡问题,并且有必要对数据集的创建和过滤做出根本性的改变。