Jan, 2023

使用检索增强的知识,学习定制的视觉模型

TL;DR提出一种名为 REACT 的框架用于获取相关网络知识以构建目标领域的定制视觉模型。该框架通过检索与预训练数据集最相关的图像 - 文本对作为外部知识源,并仅训练新的模块化块,冻结所有原始权重,证明了其在零、少、全样本设置下显著提高了分类、检索、检测和分割任务的成功率。