Apr, 2022

无需进一步训练即可将 CLIP 用于短语定位

TL;DR利用对比语言 - 视觉模型 CLIP,我们可以实现无需人工注释或额外训练的短语定位方法,其零样本短语定位性能优于现有无训练方法,并在某些情况下甚至超过了有监督的方法。