Jan, 2024

PVLR:基于提示的视觉语言表示学习用于多标签图像识别

TL;DR在这篇论文中,我们提出了一种 Prompt-driven Visual-Linguistic Representation Learning(PVLR)框架,通过双提示策略和交互融合模块,更好地利用了语言模型的能力,以提高多标签图像识别的性能。实验证明了 PVLR 的卓越性能。