朝着利用大型语言模型进行开放式视觉识别
利用相对较小规模(10 亿参数)的大型语言模型和相对较小的人工数据集精细调整,为 OpenStreetMap 数据提供了语言接口,以查询城市区域的属性,并探索人工智能适应性和生成能力在这一领域的早期应用潜力。
Sep, 2023
通过提出自主引导的语义分割(Self-Seg)框架和基于 LLM 的开放式词汇评估器(LOVE),在不需要提供类别名称的情况下,实现了开放式词汇分割的最新成果,并与提供类别名称的方法相竞争,取得了 Pascal VOC、ADE20K 和 CityScapes 的最具竞争力的结果。
Dec, 2023
该论文介绍了一种利用大型语言模型(LLM)进行文本监督语义分割的新方法,该方法通过生成更准确的类别表示来提供多样化的分割结果,并通过合并不同的子类描述符的分割图确保对测试图像的更全面的表示。经过三个标准基准的全面实验,我们的方法比传统的文本监督语义分割方法表现出更好的性能。
Mar, 2024
通过 S-Seg 模型,我们可以实现准确的像素级别标签分配,无需依赖于图像级别的 VL 模型、地面实况掩码和自定义分组编码器,并且可以在多个测试数据集上进行良好的泛化而无需进行微调。
Jan, 2024
最近,大规模视觉语言模型(VLM)的出现,如 CLIP,为开放世界的物体感知打开了道路。我们提出了一个新的任务,开放词汇伪装的物体分割(OVCOS),并构建了一个包含 11,483 个精选图像和细粒度注释的大规模复杂场景数据集(OVCamo)。通过集成类别语义知识的指导和依赖边缘和深度信息的视觉结构线索的补充,所提出的方法可以有效地捕捉伪装对象。此外,这个有效的框架在我们的 OVCamo 数据集上也超过了先前状态 - of-the-art 的开放词汇语义图像分割方法。借助提出的数据集和基线,我们希望这个具有更多实际价值的新任务能进一步扩展开放词汇密集预测任务的研究。
Nov, 2023
该论文提出了一种针对开放词汇的语义分割方法,即通过预训练模型再特定训练样本上的微调和修正,来解决预训练模型在遮蔽图像上的效果问题,从而提高模型的泛化能力,并通过遮蔽抽取方法有效地提高了语义分割的效果。
Oct, 2022
本文提出一种基于 Transformer 的模型用于开放词汇语义分割(Open-Vocabulary Semantic Segmentation, OVS),该模型通过使用网络爬虫图像 - 文本对进行预训练,并提出了两种代理任务和数据集以提高训练效率和分割结果。在三个基准数据集上实现了优异的零 - shot 迁移效果。
Jan, 2023
通过融合先进的目标检测和光学字符识别模型,我们在多模态大型语言模型的基础上进行了实证研究,以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法,该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验,我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能,而且保持了其原始优势。结果表明,改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型,在规范化的平均得分上取得了最高 12.99% 的提升,标志着多模态理解领域的重大进展。通过发布我们的代码,我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。
Jan, 2024
应用世界知识通过选择性生成大型语言模型并利用一致性基准不确定性校正方法来提高过分布检测性能,通过从每个图像提取视觉对象充分利用前述世界知识,充分实验证明本方法始终优于现有技术。
Oct, 2023
提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架,通过将对象 - 语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题,可以更简单和有效地在图像 - 文本对上训练开放词汇对象探测器,并在两个基准数据集上进行了广泛的实验,在 LVIS 等新类别上实现了 32.0%的 mAP 和 21.7%的掩膜 mAP 等卓越性能。
Nov, 2022