May, 2023

使用文本 - 图像生成模型进行图像字幕的数据筛选

TL;DR通过数据修剪的两种方法改进图像字幕生成,一种假设应该避免一些样本,另一种假设通过替换图像,使用最先进的 Stable Diffusion 模型,这些方法在 BLIP 模型上 MS COCO 和 Flickr30 k 中进行了评估。我们的方法一直优于基准,说明可以通过修剪现有资源来训练更好的图像字幕模型。最后,我们进行了人类研究,以了解稳定扩散模型的错误并突出未来的文本到图像之旅。