Apr, 2023

多模态对比学习中的表示链接

TL;DR该研究开发了一个名为 CLIPPINGS 的多模态框架,它利用端到端训练,对称视觉和语言双编码器,并通过对比语言 - 图像预训练来将它们对齐,以学习一个度量空间,在这个空间中,给定实例的汇总图像 - 文本表示对于同一类别的表示非常接近,对于不同类别的表示则很遥远。该框架在两个应用方面的表现都超过了广泛使用的字符串匹配方法,并且在不需要任何标签的情况下,仅基于图像 - OCR 对进行自我监督训练的纯自监督模型也比受欢迎的字符串匹配方法表现更好。