ICMLJun, 2024

MLIP: 高效多角度语言图像预训练与全面数据利用

TL;DR通过引入频率转换和标记级别对齐的方法,提出了多视角语言 - 图像预训练(MLIP)来解决 CLIP 在数据利用效率方面的挑战,并通过标记合并方法来加快 CLIP 的速度。