CPSeg:基于链式思维语言提示的更精细图像语义分割
本文提出了一种基于连锁式思维提示调整的视觉语言建模方法,经过广泛的实验验证,我们的方法在图像分类任务中的泛化能力更强,在单个数据集之外具有更强的可转移性和更强的领域泛化性能,而且在需要更多推理能力的图像文本检索和视觉问答方面表现更好。
Apr, 2023
本文提出了一种基于文本或图像提示产生图像分割结果的模型,使用 CLIP 模型并引入 Transformer-based decoder 实现了对于任意提示的图像分割。经过对短语切割数据集进行扩展训练,该模型可以生成二进制的分割结果。我们发现该模型不仅可适应于三种标准的分割任务,而且可以适应于任何文本或图像提示的二进制分割任务。
Dec, 2021
通过使用图像概念传达的视觉概念,本研究首次探索了使用基础模型进行开放世界理解的方法,提出了一种名为图像提示分割(IPSeg)的新方法,该方法利用了图像提示技术,通过提取强大的特征,并通过新颖的特征交互模块将输入图像的表示与提示图像的表示进行匹配,以生成突出显示输入图像中目标对象的点提示,并进一步利用生成的点提示来指导 Segment Anything Model 对输入图像中的目标对象进行分割,从而消除了繁琐的训练过程,提供更高效和可扩展的解决方案。
Oct, 2023
通过改进提示设计和损失函数,我们提出了一种实例条件提示与对比学习(ICPC)框架,改善了视觉和文本嵌入对准的质量,并在三个大规模数据集上展示出改进的性能。
Aug, 2023
本文提出了一种名为 SeCoT 的语义 “思维链” 方法,通过引入代码的语义信息,指导大型语言模型考虑和整合语义信息,以提高代码生成的准确性。实验结果表明,SeCoT 在大型模型和代码生成方面取得了最先进的性能提升。
Oct, 2023
引入了一种新型的自动提示网络(APSeg)用于跨领域的少样本语义分割(CD-FSS),其中采用了 Dual Prototype Anchor Transformation(DPAT)模块从伪查询原型和支持原型中融合特征,实现了对跨领域分割的自动引导。该模型在四个跨领域数据集上的实验证明,在 1-shot 和 5-shot 设置中相对于现有的 CD-FSS 方法,模型的平均准确率分别提高了 5.24% 和 3.10%。
Jun, 2024
通过使用文本提示来生成视觉提示并自适应测试时,本文介绍了一种基于广义任务描述的通用型对象检测方法,名为 Generalizable SAM(GenSAM)。实验证明,GenSAM 在三个基准测试上优于点标注方法,并达到了与涂鸦标注方法相当的结果。
Dec, 2023
通过 chain of thought prompting 方法,在大型语言模型中提供少量的思维链示例可以显著提高其在各类数学、常识和符号推理任务上的性能,甚至超过 fine-tuned GPT-3。
Jan, 2022
通过使用 SegGPT 作为基础模型,分别为每个新类别使用可学习的提示语进行预测,并通过图像修复任务解决遥感领域中存在的对象大小不一致性和补丁边界的不连续性问题,同时利用图像嵌入的相似性搜索来选择提示语和减少误报预测,实验结果表明我们的方法将简单微调的 SegGPT 在 Few-shot OpenEarthMap 数据集验证集上的加权 mIoU 从 15.96 提升到 35.08。
Apr, 2024
我们介绍了一种名为 I-Prompt 的方法,它是一种与任务无关的方法,专注于图像令牌的视觉语义信息,以消除任务预测,并在四个基准测试中达到了竞争性能,同时与最先进的方法相比显著减少了训练时间。通过大量实验,我们证明了我们的方法在各种场景下的优越性。
Mar, 2024