自然语言查询下的零样本对象定位
通过现有的图像 - 文本配对模型和纯物体检测数据,我们提出了一种名为 GroundVLP 的简单而有效的零样本方法,该方法结合了 GradCAM 热力图和开放词汇检测器的对象提案,用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战,实验结果显示该方法在 RefCOCO/+/g 数据集上超过了现有零样本方法的 28%,并且在 Flickr30k 实体数据集上与一些非 VLP 的有监督模型表现相当甚至更好。
Dec, 2023
本文提出了用于同时识别和定位未见过类别的物体实例的 Zero-Shot Detection 问题,并引入基于 ILSVRC 数据集的新实验协议和元类概念来改善自动推导的语义描述的噪音,旨在在视觉和语义领域信息之间建立协同作用的新型 'Zero-Shot Detection' 深度神经网络。
Mar, 2018
本文介绍了一种基于场景图和语言结构的递增式 grounding 模型 (IGSG),通过使用场景图中的对象之间的关系,构造问答对话方式以消除人类命令的歧义和错误,该模型在现实场景中表现出可接受的性能,可以有效地通过回问式问答消除歧义的问题。
Jan, 2022
提出了一种称为 joint embeddings for zero-shot learning 的方法,通过计算代理任务上的两流网络中的联合图像和文本模型来学习语义基础和丰富的视觉信息,并利用辅助字幕来提高图像和文本表示之间的对齐,从而在多个基准数据集上评估了该方法,在标准的(aPY 上 + 1.6%,FLO 上 + 2.6%)和常规的(AWA2 上 + 2.1%,CUB 上 + 2.2%)零 - shot 识别中提高了现有最先进方法的性能。
Jan, 2022
本文提出了一种新颖的广义零样本学习(GZSL)方法,它对训练期间的未见图像和未见语义向量具有不可知性。通过提出一种视觉实例的低维嵌入来打破视觉 - 语义间隙,并借助一个新的视觉神谕来量化噪声语义数据的影响,以提高准确性。在一系列数据集上用图模型进行推理的实验结果显示,该方法在语义和视觉监督下均明显优于现有技术。
Nov, 2018
本文提出了一种新的端到端模型 Single-Stage Grounding network(SSG),用于在图像内定位所指物体,通过多模态交互器和定位器来处理一个指代表达式,提出了引导注意机制和预测视觉属性信息来提高模型性能,并在 RefCOCO,RefCOCO + 和 RefCOCOg 数据集上进行了实验,结果表明设备效率高,能在很短时间内完成对所指物体的定位。
Dec, 2018
本论文针对零样本学习任务中多模态的问题,提出了一种基于知识图谱和密集注意力模块的多模态零样本学习框架,实现了对实体更具差异化的语义迁移过程和精细化的知识获取。
Jun, 2023
使用潜在扩散模型在零样本的情况下,通过选择特征和后处理进行文本引导的医学扫描的定位,相比于显式对齐图像与文本的联合嵌入空间的最新方法表现出竞争力并在多种病理类型上优于它们。
Apr, 2024
ContrastZSD 是一种用于零样本目标检测的基于语义指导对比学习的检测框架,它通过引入显式的语义指导和对比学习机制,来优化模型对未见过类别的认知,同时改善视觉特征结构以实现更好的视觉 - 语义对齐。
Sep, 2021
GroundNet 是用于语言表达识别的神经网络,利用句法分析输入指代表达式以指导计算图的结构,并解析句法成分和关系,映射到神经元模块组成的图形结构以进行目标物体及相关支持物体的定位,具有更好的可解释性和鲁棒性。
May, 2018