LLMs 作为视觉解释器:通过演变的视觉描述推进图像分类
本文介绍了一种基于描述符的视觉语言模型分类方法,通过查询大型语言模型获取描述符,实现从中获得更多的信息并提供可解释性;实验证明了该方法在图像分类精度,适应新概念和缓解偏差等方面有着广泛的优势。
Oct, 2022
利用大型语言模型解释视觉模型的学习特征,通过训练神经网络建立图像分类器和语言模型之间的连接,生成大量的句子来解释分类器学习到的特征,并提取最频繁的词语,增强图像分类器的解释性和鲁棒性。
Sep, 2023
通过提出自主引导的语义分割(Self-Seg)框架和基于 LLM 的开放式词汇评估器(LOVE),在不需要提供类别名称的情况下,实现了开放式词汇分割的最新成果,并与提供类别名称的方法相竞争,取得了 Pascal VOC、ADE20K 和 CityScapes 的最具竞争力的结果。
Dec, 2023
我们展示了多模态大型语言模型(MLLMs)通过提高数据质量来增强视觉语言表示学习,使用 MLLMs 扩展每个图像的多个标题,通过 “文本切割” 方法来防止 MLLMs 引入的偏见和内在标题风格,并在图像文本检索中,在微调和零样本设置下分别获得 5.6〜35.0%和 16.8〜46.1%的 R@1 提升,并且我们的零样本结果可与目标数据集上的微调相媲美,鼓励更多对 MLLMs 的多方面使用的探索。
Nov, 2023
本文介绍了一种新的、探索性的方法,使大型语言模型能够使用可缩放矢量图形(SVG)格式来处理图像。我们的方法旨在弥合视觉和文本模态之间的鸿沟,允许 LLM 直接理解和操作图像,而无需参数化的视觉组件。通过简单的图像分类、生成和上下文学习,我们展示了我们方法的潜力在鉴别性和生成性任务上,强调了其对分布偏移的鲁棒性以及通过利用 LLM 的上下文学习能力实现的重大提高。
Jun, 2023
通过对齐不同类型嵌入空间的方法,本研究展示了使用多模态输入改善视觉语言模型在场景理解和任务表现方面的效果,从而为多模态环境中更加多功能和有能力的语言模型铺平了道路。
Aug, 2023
提出了一种名为 VaLM 的预训练框架,对语言建模进行视觉增强,通过图像检索模块检索相应图像,使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识,并在需要的情况下获取相关联的图片,通过对各种视觉知识密集型的常识推理任务的评估,展示了 VaLM 在推理对象的常识,包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。
May, 2022
本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用,并总结了广泛采用的网络结构、预训练目标和下游任务,以及预训练和评估中广泛采用的数据集,并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。
Apr, 2023
该研究论文提出了一种统一的大规模视觉语言模型(LVLM),通过在语言特征空间中统一视觉表示,学习多模态交互,从而在图像和视频基准任务上取得了卓越性能。
Nov, 2023
通过引入 pool-adapter 模块,保留视觉嵌入的位置信息,我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。
Nov, 2023