Jun, 2024

从像素到散文:一个大规模的密集图像字幕数据集

TL;DR使用 PixelProse,通过 16M 个合成生成的标题,我们构建了一个详细而准确的图像描述的综合数据集,同时还提供了有价值的元数据,如水印存在和美学评分,以帮助进一步的数据集过滤。