Mar, 2024

RAR: 检索与排序增强型 MLLM 用于视觉识别

TL;DRCLIP 和 Multimodal Large Language Models(MLLMs)在识别广泛的候选人方面具有优势,RAR 结合了两种方法的优点,并通过建立多模式检索器和对 MLLMs 进行排名来提高对广泛和细粒度词汇的几次 / 零次识别能力,该方法在细粒度视觉识别、几次拍摄图像识别和零次识别设置下的物体检测等任务中显著提升了准确性。