多模态大语言模型的统一生成与判别训练
本文利用包含超过10亿个图像备选文本对的嘈杂数据集,采用简单的双编码器体系结构通过对比损失,学习了图像和文本对的视觉和语言表示,显示出我们语料库的规模可以弥补其噪音,即使使用这样的简单学习方案也能实现最先进的表现,使跨模式搜索变得更加容易。
Feb, 2021
这篇论文从时间的角度对视觉语言智能进行了全面的调研, 总结了三个时期的发展, 包括特定任务方法, 视觉-语言预训练方法和通过大规模弱标签数据增强的更大模型, 并讨论了未来的发展趋势.
Mar, 2022
本文提出了“SimVLG”——一种用于预训练计算密集型视觉语言生成模型的简化框架,利用冻结的预训练大型语言模型 (LLMs)。我们的单阶段单损失框架通过在训练过程中逐渐合并相似的视觉标记来绕过计算密集型的初始训练阶段,从而实现了快速收敛而不损失性能。实验证明,我们的方法可以将视觉语言模型的训练速度提高5倍,而整体性能几乎没有明显影响。此外,我们展示了我们的模型只需原数据的十分之一即可达到与当前视觉语言模型相当的性能。最后,我们通过一种新颖的软性注意力时序标记合并模块展示了如何轻松将我们的图像-文本模型应用于视频-语言生成任务。
Oct, 2023
我们展示了多模态大型语言模型(MLLMs)通过提高数据质量来增强视觉语言表示学习,使用MLLMs扩展每个图像的多个标题,通过“文本切割”方法来防止MLLMs引入的偏见和内在标题风格,并在图像文本检索中,在微调和零样本设置下分别获得5.6〜35.0%和16.8〜46.1%的R@1提升,并且我们的零样本结果可与目标数据集上的微调相媲美,鼓励更多对MLLMs的多方面使用的探索。
Nov, 2023
VL-GPT是一种同时感知和生成视觉和语言数据的变压器模型,通过采用直观的自回归目标,实现了图像和文本两种模态的统一预训练方法,从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后,VL-GPT在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。
Dec, 2023
通过提出创新的评估方法并修正现有的视觉问答基准,我们的研究旨在推进我们对文本生成视觉语言模型能力的理解,提出了一种基于著名视觉分类数据集的新型视觉问答基准,可以对文本生成视觉语言模型进行细粒度评估,并与辨别性视觉语言模型进行比较。我们建议利用标签空间的语义层次结构为细粒度分类任务中的粗略答案提出自动生成的后续问题,以改善评估模型预测的传统自然语言处理和基于语言模型的度量标准。我们进行了人工评估研究,基于这项研究,我们决定采用最终的度量标准。我们将我们的基准应用于一套视觉语言模型,并详细比较了它们在对象、行为和属性分类方面的能力。我们的研究为更精确、有意义的评估奠定基础,促进了视觉语言建模领域的有针对性进展。
Feb, 2024
构建在生成式语言模型基础上的多模态大型语言模型(MLLMs)拥有记忆和重新召回图像能力,介绍了一种基于生成式跨模态检索框架的方法,通过将图像存储在MLLMs中以实现记忆功能,并有效地进行跨模态检索。
Feb, 2024
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的MLLMs奠定了基础。
Feb, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
该研究使用大规模视觉语言模型(LVLMs)来评估它们在识别相似对象和准确描述视觉特征方面的独特性和忠实度,并提出了文本检索增强分类(TRAC)框架以深入分析细粒度的视觉描述生成。研究结果表明,在生成细粒度描述方面,MiniGPT-4比其他两个模型表现更好。
Apr, 2024