检索增强的多模态语言建模
CM3Leon 是一种检索增强的令牌化、仅解码器的多模式语言模型,能够生成和填充文本和图像,通过多模式体系结构实现规模化和调优多样化指导式数据的极大益处,附加了大规模检索增强预训练阶段和第二个多任务监督微调阶段。它是一种通用模型,可以进行文本到图像和图像到文本的生成,可生成高质量输出的自包含对比解码方法。广泛实验证明了这种方法对多模态模型的高效性,CM3Leon 在文本到图像生成方面实现了最先进的性能,训练计算量比可比方法少 5 倍(零样本 MS-COCO FID 为 4.88)。经过微调后,CM3Leon 还可以展示在从语言引导的图像编辑到图像控制生成和分割的任务中前所未有的可控水平。
Sep, 2023
MuRAG 是第一个多模态检索增强变压器,利用外部非参数多模态存储器来增强语言生成,并在 WebQA 和 MultimodalQA 两个数据集上实现了最新的准确性,优于现有模型 10-20%绝对值。
Oct, 2022
提出了一种新颖的多模式检索 (MORE) 增强框架,利用文本和图像来增强语言模型的常识能力。在 Common-Gen 任务上的大量实验表明,MORE 基于单一和多模态的预训练模型具有较高的效果。
Feb, 2024
通过引入一种名为 RMR 的新型多模式 RAG 框架,本研究在多模式视觉语言模型中整合了基于检索的答案生成和推理能力,并通过提供相关问答对进行训练来显著提高各种基准数据集上的性能,凸显该框架在改善视觉语言模型的推理能力方面潜力巨大。
May, 2024
该论文介绍了 RAVEN,一个多任务的检索增强视觉语言模型框架,通过有效的任务特定微调,无需额外的检索特定参数,该模型获得了在多个任务中都有效的检索能力,对图像字幕和 VQA 任务的广泛实验结果表明,与非检索基准线相比,在 MSCOCO 上提高了 + 1 CIDEr,在 NoCaps 上提高了 + 4 CIDEr,在特定的 VQA 问题类型上提高了近 3%的准确率,这表明了将 RAG 方法应用于视觉语言模型的有效性,标志着朝着更高效和可访问的多模态学习迈进。
Jun, 2024
我们提出了一种创新的端到端生成框架,用于多模态知识检索,通过利用大型语言模型 (LLMs) 作为虚拟知识库,使用对象感知的前缀调优技术来指导多粒度视觉学习,将多粒度视觉特征对齐到 LLM 的文本特征空间中,通过统一格式的指令数据构建模型训练,最后,我们提出了知识引导的生成策略,在解码步骤中施加先验约束,促进独特知识线索的生成,在三个基准测试中实验证明,与强基线方法相比,在所有评估指标上均取得了 3.0% 到 14.6% 的显著改进。
Jan, 2024
本论文提出了 RECO 模型,该模型通过外部记忆检索获取精细化知识,应用于现有视觉文本模型中,并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。
Jun, 2023
构建在生成式语言模型基础上的多模态大型语言模型(MLLMs)拥有记忆和重新召回图像能力,介绍了一种基于生成式跨模态检索框架的方法,通过将图像存储在 MLLMs 中以实现记忆功能,并有效地进行跨模态检索。
Feb, 2024
通过多模式输入,如 2D 草图、图片和文本从高质量的 3D 资产检索解决通常需要高度专业化技能才能手工设计和生成对象和其他资产模型的问题。
Sep, 2022
跨语言跨模态检索致力于在不使用任何标注的视觉 - 目标语言数据对的情况下实现视觉和目标语言之间的对齐。本研究提出了一种名为 CL2CM 的通用框架,使用跨语言转移改善了视觉和目标语言之间的对齐,可在跨模态网络中为可靠全面的语义对应(知识)提供优势,并通过在多语言图像 - 文本数据集和视频 - 文本数据集上进行实验验证了其高潜力和有效性。
Dec, 2023