ICCVOct, 2023

基于图像文本相似度和标题修改的数据比赛挑战:过滤轨道和自带设备轨道的利用

TL;DR本文介绍了我们在 DataComp 挑战赛的筛选和修改轨道上的解决方案,采用大型多模态模型 CLIP 和 BLIP-2 对网络爬行数据进行过滤和修改,并利用外部数据集和一系列技巧来提高数据质量。实验证明我们的解决方案在 DataComp 基线的基础上取得了显著的进展(筛选轨道:改善了 6.6%,BYOD 轨道:改善了 48.5%)。