Oct, 2023

SIEVE: 利用图像字幕模型进行多模态数据集修剪

TL;DR使用图像 - 文本模型预训练的数据集来对模型进行裁剪是一种成功的方法,但它存在一些限制。为解决这些问题,我们提出了一种名为 SIEVE 的方法,它使用由经过预训练的图像 - 文本模型生成的合成标题来评估图像 - 文本对的一致性,并在大规模和中等规模的数据集上取得了最先进的性能。