Jun, 2024

统一的文本到图像生成和检索

TL;DR研究中,我们提出了一个统一框架,以多模态大型语言模型(MLLMs)为背景,探索了文本到图像生成和检索之间的关系,并引入了一种生成检索方法,在无需训练的情况下进行检索。我们还构建了一个基准测试集 TIGeR-Bench 以标准化统一的文本到图像生成和检索方法的评估,并在 TIGeR-Bench 以及两个检索基准测试集 Flickr30K 和 MS-COCO 上进行了大量实验,证明了我们提出方法的优越性和效果。