Nov, 2023

GELDA:揭示数据集中的视觉偏差的生成语言标注框架

TL;DRGELDA 是一个几乎自动的框架,利用大规模生成语言模型(LLMs)为一个领域提出和标记各种属性,并使用 LLMs 决定在图像中对每个属性进行分类的视觉语言模型(VLMs),结果显示 GELDA 能够生成准确和多样的视觉属性建议,并发现偏见,即类标签和背景特征之间的混淆,它可以作为一种辅助工具帮助人们以一种廉价、低成本和灵活的方式分析数据集。