Dec, 2023

TagAlign: 多标签分类改进视觉和语言对齐

TL;DR通过提取图像和文本特征,我们提出了一种简洁的方法来更好地对齐图像和文本,并通过多标签分类损失补充常用的图像 - 文本对比损失,以提高视觉 - 语言模型的性能。这种方法能够自动解析描述中的对象和属性,并使模型准确定位具有特定属性的对象。