Jul, 2023

解耦语言预训练引导视觉 - 语言学习

TL;DR该论文提出了一种新的方法,使用 Prompt-Transformer 模型,基于语言数据而不是图像 - 文本配对来预测理想 prompts,从而优化了资源密集型视觉语言预训练过程,提高了大语言模型的性能。