Apr, 2024

FINEMATCH:基于方面的细粒度图像与文本不匹配检测与校正

TL;DR提出了 FineMatch,一种新的面向细粒度文本和图像匹配的方面研究和评估 VLMs 组合性的基准,通过引入一个新的任务来检测和纠正文本和图像不匹配,对现有的主流 VLMs 进行了全面的实验分析。