Jun, 2024

RWKV-CLIP:一个稳健的视觉-语言表示学习器

TL;DR通过扩展数据集和模型架构,该研究进一步探索了具有对比语言-图像预训练(CLIP)的视觉语言任务的性能,在处理来自网站的图像-文本对时。通过引入多样化的描述生成框架,该研究提出了RWKV-CLIP,其中结合了变压器的有效并行训练和循环神经网络的高效推理。通过广泛的实验和多种模型规模和预训练数据集,证明了RWKV-CLIP是一个强大而有效的视觉语言表征学习器,在线性探测、零样例分类和零样例图像-文本检索等多个下游任务中实现了最先进的性能。