多模态自回归建模基于视觉单词
通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾,本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用,以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战,并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述,我们揭示了 MM-LLM 在各种应用中的转型潜力。
Mar, 2024
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的 MLLMs 奠定了基础。
Feb, 2024
本研究提出了一种新的方法来增强多模式大型语言模型的可解释性,通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合,从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性,使我们能够设计一种新的显著性图以解释任何输出标记,识别模型幻觉,并通过语义对抗扰动评估模型的偏见。
May, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
本文介绍了一种通过图像内容和文字指令进行显式推理的新方法,采用大型多模态模型(LMM),并引入了一个能够提问以获取必要知识以增强推理过程鲁棒性和可解释性的系统。实验结果表明我们的方法能够在面对模糊的视觉输入时,朝着更具鲁棒性、准确性和可解释性的 LMM 迈进。
Jan, 2024
使用大型语言模型和多模态语言模型,我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式,从而扩展了多模态语言模型用于特定领域任务,实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。
Feb, 2024
基于大型语言模型和视觉基础模型的多模态人工智能系统在实时感知、决策和工具控制方面与人类相似,并在自动驾驶和地图系统中引起广泛关注。本文对多模态大型语言模型驱动系统的关键挑战、机会和未来工作进行了系统研究,概述了多模态大型语言模型的背景、发展以及自动驾驶的历史,并总结了在自动驾驶中使用多模态大型语言模型的工具、数据集和基准,同时介绍了第一届大型语言和视觉模型自动驾驶研讨会的相关工作,提出了使用多模态大型语言模型在自动驾驶系统中需要解决的若干重要问题,并呼吁学术界和工业界共同促进该领域的发展。
Nov, 2023
该研究论文提出了一种统一的大规模视觉语言模型(LVLM),通过在语言特征空间中统一视觉表示,学习多模态交互,从而在图像和视频基准任务上取得了卓越性能。
Nov, 2023
我们展示了多模态大型语言模型(MLLMs)通过提高数据质量来增强视觉语言表示学习,使用 MLLMs 扩展每个图像的多个标题,通过 “文本切割” 方法来防止 MLLMs 引入的偏见和内在标题风格,并在图像文本检索中,在微调和零样本设置下分别获得 5.6〜35.0%和 16.8〜46.1%的 R@1 提升,并且我们的零样本结果可与目标数据集上的微调相媲美,鼓励更多对 MLLMs 的多方面使用的探索。
Nov, 2023
通过实验证明,对多模态大型语言模型进行微调时,虽然确实获得了特定领域的视觉能力,但更新不会导致提取相关的特定领域视觉属性。结果表明,即使只对投影进行微调,领域特定的视觉属性仍由语言模型来建模。通过这项研究,我们提供了对多模态大型语言模型架构中交叉模态投影作用的潜在重新解释。
Feb, 2024