Jul, 2024

AWT:通过增强,加权和传输进行视觉语言模型的转移

TL;DR通过增强输入的多样化视觉角度与丰富的类别描述,利用预训练视觉-语言模型实现图像与语言的最优传输,提高视觉-语言模型的零样本学习与少样本学习能力。