AAAIJan, 2024

利用大型语言模型的生成式多模态知识检索

TL;DR我们提出了一种创新的端到端生成框架,用于多模态知识检索,通过利用大型语言模型 (LLMs) 作为虚拟知识库,使用对象感知的前缀调优技术来指导多粒度视觉学习,将多粒度视觉特征对齐到 LLM 的文本特征空间中,通过统一格式的指令数据构建模型训练,最后,我们提出了知识引导的生成策略,在解码步骤中施加先验约束,促进独特知识线索的生成,在三个基准测试中实验证明,与强基线方法相比,在所有评估指标上均取得了 3.0% 到 14.6% 的显著改进。