Mar, 2024

利用 LLMs 自动化零射视觉识别的元提示

TL;DR通过 Meta-Prompting for Visual Recognition (MPVR) 方法,仅凭目标任务的简短自然语言描述和相关类别标签的最小信息输入,自动产生一组多样的类别特定提示,从而实现强大的零样本分类器。在多个不同领域的流行的零样本图像识别基准上,使用多个 LLMs 和 VLMs 测试,MPVR 可以有效地推广,比 CLIP 提高了最高 19.8%和 18.2%(平均 20 个数据集上分别为 5.0%和 4.5%),依赖于 GPT 和 Mixtral LLMs。