视觉增强语言建模
探究使用视觉数据来补充大型语言模型知识的方法,并提出一种基于 memory colors 任务查询和模型训练数据过滤的方法,以用于测量模型的视觉知识传输能力,并介绍了一种涉及视觉想象步骤的模型架构,并发现我们的方法可以成功用于衡量模型的视觉知识传输能力,而我们的新型模型架构在单模态环境中利用多模态知识具有良好的结果。
Sep, 2021
本研究探索了将视觉知识整合到语言模型中以填补现有文本信息中缺失的相关性和物体属性信息的空白。研究发现,视觉知识传递可以在低资源和完全监督设置下均有效提高预先训练的语言模型在需要视觉知识的下游任务中的性能。
Mar, 2022
本文提出了一种新的视觉增强微调方法,名为VAWI,该方法能够将视觉语义注入到不同PLMs或自然语言处理任务中,通过使用视觉饥饿字词的固定CLIP文本编码器来产生视觉增强表示,引入了视觉语义,实验结果表明该方法能够改善BERT、RoBERTa、BART和T5的性能,并显著优于其他竞争基线。
Dec, 2022
本研究提出了一种基于Flamingo模型的Retrieval-augmented Visual Language Model(Re-ViLM), 支持检索外部数据库的相关知识,减少模型参数数量,适应新数据评估。研究表明,Re-ViLM显著提高了图像到文本生成任务的性能,在没有领域内数据和少量领域内数据的情况下,参数数量是基线方法的四倍。
Feb, 2023
多模态大型语言模型(MLLMs)借助视觉知识的两个层面提升了理解和感知多模态信号的能力。通过逐步整合细粒度的空间感知视觉知识和软提示高级语义视觉证据的方法,我们的模型在多个多模态基准测试中展示了过人的优越性能。
Nov, 2023
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的MLLMs奠定了基础。
Feb, 2024
在当前大型多模态模型的研究中,我们评估和重新思考了广泛使用的视觉语言投射方法(如Q-former或MLP),发现它们侧重于图像-文本描述的对齐,但忽略了视觉知识维度的对齐,即将视觉元素与相关知识连接起来。本文主要探索通过视觉语言知识对齐来改进大型多模态模型,特别关注知识型视觉问题回答。为此,我们提出了一个认知视觉语言映射器(CVLM),包含一个预训练的视觉知识对齐器(VKA)和一个用于多模态指令调整阶段的细粒度知识适配器(FKA)。我们通过在知识型视觉问题回答基准测试上进行广泛实验证明,CVLM显著提高了LMM在知识型视觉问题回答上的性能(平均提升5%),消融研究也验证了VKA和FKA的有效性。
Feb, 2024
基于多模态知识的常识推理是根本,我们介绍了一种方法来增强大型语言模型的视觉常识能力,该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上,还在传统自然语言处理基准上优于现有基线模型。
Jun, 2024
该研究解决了现有自回归语言模型在视觉知识方面的不足,提出了一种新的方法,利用来自CLIP多模态系统的视觉基础文本表示来增强语言模型。研究发现,新的模型BLIND-VALM在视觉语言理解、自然语言理解和语言建模任务上表现与VALM相当,且在效率和简便性上具有显著优势。
Sep, 2024
本研究解决了传统视觉语言模型在复杂视觉推理场景中的表现不足的问题。我们提出了复杂视觉推理大型语言模型(CVR-LLM),通过迭代自我精炼循环生成详细的上下文感知描述,并利用大型语言模型的文本知识进行准确预测,显著提升了推理能力。研究结果表明,CVR-LLM在多项复杂视觉推理任务上达到目前的最佳性能,具有重要的应用潜力。
Sep, 2024