Feb, 2024

生成跨模态检索:以检索和超越为目的的多模态语言模型中的图像记忆

TL;DR构建在生成式语言模型基础上的多模态大型语言模型(MLLMs)拥有记忆和重新召回图像能力,介绍了一种基于生成式跨模态检索框架的方法,通过将图像存储在 MLLMs 中以实现记忆功能,并有效地进行跨模态检索。