语言和视觉模型几何形态的融合含义
近期,大型语言模型(LLMs)与计算机视觉(CV)的交叉领域成为人工智能(AI)领域重要的研究领域,驱动了重大的进展。该综述论文探讨了变压器及其后继者在转换器和大型语言模型中的最新进展,强调了其对视觉变压器和 LLMs 的革命潜力。同时通过对多个领先的付费和开源 LLMs 的性能指标的对比分析,揭示了它们的优势和改进空间,并回顾了 LLMs 如何用于解决视觉相关任务的文献综述。此外,该综述还提供了用于训练 LLMs 的全面数据集合,并为 LLMs 的预训练和下游任务的高性能实现提供了洞见。综述通过强调 LLMs 在 CV 上的深刻交叉,指出了集成和先进 AI 模型的新时代的潜在研究和发展方向。
Nov, 2023
扩展到视觉领域的大型语言模型(LLMs)的应用将显著影响我们与技术的关系,但需要解决一些可靠性挑战。本文介绍了视觉语言模型(VLM)以及其工作原理、训练方法和评估方法,并讨论了将其扩展到视频领域的问题。
May, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
基于大语言模型和视觉变换的视觉语言模型(VLMs)的增长兴趣,我们观察到在 VLMs 设计中往往存在未经支持的决策,这使得很难确定哪些选择能够提高模型性能,为了解决这个问题,我们进行了大量关于预训练模型、架构选择、数据和训练方法的实验,基于这些实验结果,我们开发了一个 8 亿参数的高效基础 VLM 模型
May, 2024
通过对多模态机制的详细分析,揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性,并引入了一种名为 “Vision Description Prompting” 的方法,有效提高了具有挑战性的视觉相关任务的性能。
Oct, 2023
文中系统评估了大型语言模型(LLMs)生成和识别各种复杂视觉概念的能力,并展示了如何使用文本模型训练初步的视觉表示学习系统。实验结果表明,通过精确地建模字符串,语言模型可以在视觉世界的多个方面展现出作用,同时使用文本模型生成的图像进行的自监督视觉表示学习实验突显了仅借助 LLMs 能够训练具备语义评估能力的视觉模型的潜力。
Jan, 2024
本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用,并总结了广泛采用的网络结构、预训练目标和下游任务,以及预训练和评估中广泛采用的数据集,并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。
Apr, 2023
本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功,着重介绍了视觉语言预训练模型 (VLPM) 的重要进展及其结构、预训练和微调策略,并提出了未来三个方向的研究建议。
Apr, 2022
本研究探讨了神经语言模型(LM)与人类学习者的效率差距,提出了学习者除文本外的其他模式,即视觉模式的可行性,并通过两个实验表明视觉模式在简化的人工场景下加速了 LMs 的合适的语法泛化,但在嘈杂的现实场景中,LMs 很难做到。这表明视觉有助于语言习得,但学习者需要有额外的先验知识来使用原始图像进行高效的语言习得。
Feb, 2023
本文综述了视觉 - 语言预训练模型在多模态学习上的进展,介绍了编码图像、文本信息的方法,分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务,并提出了未来的研究方向。
Feb, 2022