Nov, 2023

高效图像探索与用户引导图像标题生成的视觉分析

TL;DR运用预训练的大规模语言 - 图像模型,本文尝试解决可视化分析中的两个问题:大规模图像数据集的高效探索与潜在数据偏差的发现以及图像标题的评估与生成过程的引导。通过分析从语言 - 图像模型自动生成的图像标题,我们能深入了解视觉内容的语义基础,并发现数据偏差。同时,通过展示视觉内容与文本标题之间的关联,揭示了预训练的语言 - 图像模型在标题生成能力上的不足,并提出了一种交互界面来引导标题生成。通过具体案例研究和大规模图像数据集的领域实践者验证了该系统的有效性。