Oct, 2024

对比局部语言-图像预训练

TL;DR本研究解决了在图像输入与语言交互中的细粒度视觉表示不足的问题。作者提出了一种名为对比局部语言-图像预训练(CLOC)的方法,通过引入区域-文本对比损失和模块,显著增强了CLIP的定位能力。该方法可生成高质量的区域嵌入,提升了多模态大型语言模型在视觉任务中的表现,具有广泛的潜在应用影响。