May, 2023

IIITD-20K: 文本 - 图像 ReID 的密集字幕

TL;DR提出了一个新的名为 IIITD-20K 的数据集,包括 20000 个在野外抓取的唯一身份的密集标题,使用生成图像和精细的标题进一步多样化身份,并进行了实验以将其与目前最先进的文本到图像 ReID 模型进行对比。