Dec, 2023
错配探索:图像 - 文本错位的视觉与文本反馈
Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment
Brian Gordon, Yonatan Bitton, Yonatan Shafir, Roopal Garg, Xi Chen...
TL;DR本文提出了一种方法,利用大型语言模型和视觉定位模型自动构建训练集来提供检测到的文本和图像对之间的详细文本和视觉错位的解释,实验证明在我们的训练集上微调视觉语言模型可以在二元对齐分类和解释生成任务上优于强基线模型。