Feb, 2025
SigLIP 2:多语言视觉-语言编码器,提升语义理解、本地化和密集特征
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic
Understanding, Localization, and Dense Features
Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin...
TL;DR本研究聚焦于现有的视觉-语言编码器在多语言语义理解中的不足,提出了一种新的统一训练方法,结合了多种自主开发的技术。研究表明,SigLIP 2在零-shot分类、图像-文本检索以及视觉表示 extraction 等核心能力上超越了之前的版本,同时在本地化和密集预测任务上也取得了显著提升。