Jan, 2024

大规模网页图像 - 文本数据集用于视觉概念理解

TL;DR通过商业购物网站提供的大规模公共数据集‘Let's Go Shopping (LGS)’,我们发现现存基准数据集的分类器在电子商务数据上无法很好地进行泛化,而特定的自我监督视觉特征提取器则可以更好地进行泛化,此外,LGS 数据集的高质量电子商务特定图像和双模态性质,使其对于视觉 - 语言双模态任务具有优势,可以帮助图像生成丰富的标题,并实现电子商务风格的文本到图像转换。