基于综合切分对大型语言模型进行落地:地鼠模型
我们提出了一种新的方法来从长描述中密集地连接视觉实体,利用大型多模态模型提取语义名词,利用无类别分割模型生成实体级分割,采用多模态特征融合模块将每个语义名词与其对应的分割蒙版关联。此方法利用颜色映射对实体分割蒙版进行编码,使得细粒度预测能够保留高分辨率蒙版的特征。该方法使用 LMM 中的 CLIP 视觉编码器从低分辨率图像中提取视觉特征,比使用额外编码器处理高分辨率图像的现有方法在计算上更高效。我们的全面实验表明,我们的方法卓越于三个任务,包括全景叙事连接、指称表达分割和全景分割。
Feb, 2024
GLaMM 是首个能够无缝生成自然语言回复并与相应对象分割遮罩混合的模型,在图像和文本领域中以不同粒度的方式与模型进行交互,同时通过 GLaMM,还可以在诸多其他任务中有效地实现指代表达分割、图像和区域级别的字幕以及视觉语言对话。
Nov, 2023
LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型(LLM)的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素,并利用可视化定位工具识别 3D 场景中的对象,LLM-Grounder 评估所提议对象之间的空间和常识关系,从而做出最终的定位决策。该方法不需要有标签的培训数据,可应用于新型 3D 场景和任意文本查询,显示出最先进的零样本定位准确性。研究结果表明,LLM 显著提高了定位能力,尤其对于复杂语言查询,在机器人的 3D 视觉语言任务中,LLM-Grounder 是一种有效的方法。
Sep, 2023
通过冻结已训练好的 Large Multimodal Models(LMMs)并结合人机对话,我们提出了一种简单且有效的设计 F-LMM,可以在完全保留 LMMs 的通话能力的同时,在指示物镜分割和全景叙述理解等测试中实现有竞争力的性能。
Jun, 2024
BuboGPT 是一种多模态的 LLM,具有视觉定位和文本 - 图像 - 音频理解的能力,通过 SAM 和一个两阶段的训练方案来实现实体识别和对应目标的定位。在任意模态组合 (对齐或未对齐) 的情况下,BuboGPT 在与人类交互时表现出令人印象深刻的多模态理解和视觉定位能力。
Jul, 2023
插拔式推理引擎 P2G 在多模态大型语言模型中的可视化推理任务表现优异,特别是在高分辨率图像中的文本和对象细节捕捉方面,与 GPT-4V 的性能相当,为模型扩展之外的有前景的替代方案。
Mar, 2024
通过使用大型语言模型作为视觉定位模型的辅助工具,LLM-Optic 方法克服了复杂文本查询的限制,实现了可以通过任意语言输入来检测任意对象的视觉定位能力,无需额外训练或微调。
May, 2024
在文档理解领域,本文提出了一种文本定位的文档理解模型,命名为 TGDoc,通过增强多模态大型语言模型(MLLMs)的能力来识别图像内文本的空间位置,以提高文本内容解释的准确性,从而提高对文本丰富图像的理解能力。实验证据表明,文本定位方法在多个文本丰富基准测试中取得了最先进的性能,验证了我们方法的有效性。
Nov, 2023
通过多模态预训练的方法,我们提出了一个简洁高效的分层多模态细粒度调制框架 HiVG,用于解决通过自然语言对视觉区域进行视觉定位的任务,并且在五个数据集上的实验证明了该方法的有效性和显著的视觉定位能力及能源效率优势。
Apr, 2024
近年来,研究人员试图调查 LLM 在处理视频方面的能力,并提出了几种视频 LLM 模型。然而,LLM 在处理视频对齐(VG)方面的能力仍然不清楚,也没有在文献中进行探索。为了填补这一空白,本文提出了 LLM4VG 基准测试,对不同的 LLM 在视频对齐任务上的性能进行系统评估。基于我们提出的 LLM4VG,我们设计了大量实验,检查了两组视频 LLM 模型在视频对齐上的表现:(i)基于文本 - 视频对训练的视频 LLM(标记为 VidLLM),以及(ii)与预训练的视觉描述模型(如视频 / 图像字幕模型)结合的 LLM。我们提出了整合 VG 指令和来自不同类型生成器的描述的方法,包括用于直接视觉描述的基于字幕的生成器和用于信息增强的基于 VQA 的生成器。我们还对各种 VidLLM 进行了全面比较,并探讨了不同视觉模型、LLM、提示设计等的影响。我们的实验评估得出了两个结论:(i)现有的 VidLLM 离实现令人满意的视频对齐性能还有很长的路要走,需要进一步微调这些模型以包含更多的与时间相关的视频任务;(ii)LLM 和视觉模型的组合显示出初步的视频对齐能力,通过采用更可靠的模型和进一步的提示指导,这种能力具有可观的改进潜力。
Dec, 2023