Feb, 2023

Re-ViLM: 检索增强的视觉语言模型,用于零和少量样本图像字幕生成

TL;DR本研究提出了一种基于Flamingo模型的Retrieval-augmented Visual Language Model(Re-ViLM), 支持检索外部数据库的相关知识,减少模型参数数量,适应新数据评估。研究表明,Re-ViLM显著提高了图像到文本生成任务的性能,在没有领域内数据和少量领域内数据的情况下,参数数量是基线方法的四倍。