F-LMM: 冻结大规模多模态模型的基础
GLaMM 是首个能够无缝生成自然语言回复并与相应对象分割遮罩混合的模型,在图像和文本领域中以不同粒度的方式与模型进行交互,同时通过 GLaMM,还可以在诸多其他任务中有效地实现指代表达分割、图像和区域级别的字幕以及视觉语言对话。
Nov, 2023
我们提出了一种新的方法来从长描述中密集地连接视觉实体,利用大型多模态模型提取语义名词,利用无类别分割模型生成实体级分割,采用多模态特征融合模块将每个语义名词与其对应的分割蒙版关联。此方法利用颜色映射对实体分割蒙版进行编码,使得细粒度预测能够保留高分辨率蒙版的特征。该方法使用 LMM 中的 CLIP 视觉编码器从低分辨率图像中提取视觉特征,比使用额外编码器处理高分辨率图像的现有方法在计算上更高效。我们的全面实验表明,我们的方法卓越于三个任务,包括全景叙事连接、指称表达分割和全景分割。
Feb, 2024
提出了 AnyRef 模型,它能从多模态参考中生成像素级的物体感知和自然语言描述,从而提供更大的灵活性,超越了文本和区域提示,无需特定的设计。通过提出的重新聚焦机制,生成的定位输出可以更好地聚焦在参考对象上,从而隐含地融入了像素级的监督。该模型在多个基准测试中取得了最先进的结果,包括多模态参考分割和区域级参考表达生成。
Mar, 2024
对于 LLMs 的研究表明它们具有语义基础和生成文本的意义理解能力,并且通过应用心灵哲学和语言的含义理论的核心假设,发现 LLMs 在功能性、社会性和因果性的语义基础中都呈现基本证据,并发展出世界模型。因此,LLMs 并非随机模仿者或语义僵尸,而至少在初级情况下已经理解了它们所生成的语言。
Feb, 2024
最近在大型多模态模型(LMMs)的重要突破中,人们越来越意识到视觉聊天的基础能力。然而,尽管近期的努力使 LMMs 能够支持基础能力,但它们的聊天表现通常是独立的,并且在被要求进行基础时其聊天性能显著下降。该问题的根源在于缺乏一个用于基础视觉聊天(GVC)的数据集。为了解决这个问题,我们创造了能够结合基础和聊天能力的 GVC 数据。为了更好地评估 GVC 的能力,我们引入了一个名为 Grounding-Bench 的基准。此外,我们提出了一种模型设计,可以通过将分割模型与语言模型相连接来支持 GVC 和各种类型的视觉提示。实验结果表明,我们的模型在 Grounding-Bench 上优于其他 LMMs。此外,我们的模型在经典的基础基准测试中,如 RefCOCO/+/g 和 Flickr30K 实体中,也取得了有竞争力的性能。我们的代码将在此 https URL 发布。
Dec, 2023
LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型(LLM)的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素,并利用可视化定位工具识别 3D 场景中的对象,LLM-Grounder 评估所提议对象之间的空间和常识关系,从而做出最终的定位决策。该方法不需要有标签的培训数据,可应用于新型 3D 场景和任意文本查询,显示出最先进的零样本定位准确性。研究结果表明,LLM 显著提高了定位能力,尤其对于复杂语言查询,在机器人的 3D 视觉语言任务中,LLM-Grounder 是一种有效的方法。
Sep, 2023
Video-LLaVA 是第一个具有像素级定位能力且通过将音频转写为文本来丰富视频上下文理解的大型多模态模型,在视频中能够根据用户指令对对象进行时空定位,并在生成和问答任务中取得优异结果。
Nov, 2023
通过对具有意义的监督的视觉数据进行训练,我们发现在具有限定语言数据的情况下,视觉监督可以提高词汇学习的效率,但这种改进是有限的,并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。
Oct, 2023
通过引入 pool-adapter 模块,保留视觉嵌入的位置信息,我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。
Nov, 2023