Feb, 2025

SigLIP 2:多语言视觉-语言编码器,提升语义理解、本地化和密集特征

TL;DR本研究聚焦于现有的视觉-语言编码器在多语言语义理解中的不足,提出了一种新的统一训练方法,结合了多种自主开发的技术。研究表明,SigLIP 2在零-shot分类、图像-文本检索以及视觉表示 extraction 等核心能力上超越了之前的版本,同时在本地化和密集预测任务上也取得了显著提升。