Jun, 2024

RWKV-CLIP:一个稳健的视觉 - 语言表示学习器

TL;DR通过扩展数据集和模型架构,该研究进一步探索了具有对比语言 - 图像预训练(CLIP)的视觉语言任务的性能,在处理来自网站的图像 - 文本对时。通过引入多样化的描述生成框架,该研究提出了 RWKV-CLIP,其中结合了变压器的有效并行训练和循环神经网络的高效推理。通过广泛的实验和多种模型规模和预训练数据集,证明了 RWKV-CLIP 是一个强大而有效的视觉语言表征学习器,在线性探测、零样例分类和零样例图像 - 文本检索等多个下游任务中实现了最先进的性能。