Oct, 2023
SIEVE: 利用图像字幕模型进行多模态数据集修剪
SIEVE: Multimodal Dataset Pruning Using Image Captioning Models
Anas Mahmoud, Mostafa Elhoushi, Amro Abbas, Yu Yang, Newsha Ardalani...
TL;DR使用图像 - 文本模型预训练的数据集来对模型进行裁剪是一种成功的方法,但它存在一些限制。为解决这些问题,我们提出了一种名为 SIEVE 的方法,它使用由经过预训练的图像 - 文本模型生成的合成标题来评估图像 - 文本对的一致性,并在大规模和中等规模的数据集上取得了最先进的性能。