零样本图像检索的视觉 - 语义嵌入方法综述
提出了一种称为 joint embeddings for zero-shot learning 的方法,通过计算代理任务上的两流网络中的联合图像和文本模型来学习语义基础和丰富的视觉信息,并利用辅助字幕来提高图像和文本表示之间的对齐,从而在多个基准数据集上评估了该方法,在标准的(aPY 上 + 1.6%,FLO 上 + 2.6%)和常规的(AWA2 上 + 2.1%,CUB 上 + 2.2%)零 - shot 识别中提高了现有最先进方法的性能。
Jan, 2022
本文提出了一种评估 VQA 方法能力的新协议,该方法旨在衡量其执行零摄影技术需求 (Zero-Shot VQA) 的能力,并在此过程中凸显了当前方法的一些实际缺陷,其中一些缺陷被当前数据集中的偏见掩盖。通过在预训练单词嵌入和物体分类器等方面进行实验,我们提出并评估了多种实现零摄影技术需求的策略,并在标准 VQA 评估设置中实现了最先进的性能。
Nov, 2016
本文提出了一种新颖的广义零样本学习(GZSL)方法,它对训练期间的未见图像和未见语义向量具有不可知性。通过提出一种视觉实例的低维嵌入来打破视觉 - 语义间隙,并借助一个新的视觉神谕来量化噪声语义数据的影响,以提高准确性。在一系列数据集上用图模型进行推理的实验结果显示,该方法在语义和视觉监督下均明显优于现有技术。
Nov, 2018
本文讨论了使用语义表达来识别未见过的物体,提出了一种基于文档的语义表示方法,通过半自动机制提取并加权了文档中包含的可视信息,形成了语义表示,相比现有方法在 ImageNet 数据集上表现更佳。
Apr, 2021
零样本学习在机器学习模型中提供了一种有效的解决方案,用于处理未见类别,避免了繁琐数据收集。本文提出了一种新颖的框架,通过对比文本间接对齐素描和照片,避免了对素描照片成对样本的需求。通过从数据中学习明确的形态编码,我们的方法将形态不可知的语义与形态特定信息进行了分解,桥接了形态间的差距,并在联合潜空间内实现了有效的跨模态内容检索。通过全面的实验验证了所提出模型在零样本基于素描的图像检索上的有效性,并可应用于广义和细粒度设置。
Jan, 2024
该研究旨在基于自然语言查询进行视频检索,并采用嵌入模型进行检索任务的训练,试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧,最终在视频和句子检索任务中实现了明显的改进,并取得了与当前最先进技术相媲美的描述生成性能。
Aug, 2016
该论文研究了三种不同的融合方法在远程遥感领域的视觉问答中的应用,并分析了与模型复杂度相关的精度提高。结果表明,采用更复杂的融合机制可以提高性能,但在实践中寻求模型复杂度和性能之间的平衡是值得的。
Sep, 2021
本文提出了一种新的零样本基于草图的图像检索 (ZS-SBIR) 场景,该场景能够有效解决 ZS-SBIR 实际应用中常见的大领域差异和大规模检索问题,提供了一个全新的 ZS-SBIR 数据集 QuickDraw-Extended,采用了一种新策略来处理领域差异,同时集成了外部语义知识以帮助语义转换,实验表明该模型在现有数据集上表现优异,并提供训练代码和数据集以供未来研究使用。
Apr, 2019
通过引入正交视觉嵌入并利用自我注意力交换,我们提出了一种高效维护主题身份的方法,以解决文本到图像模型中遭遇的问题,并展示了该方法的效果和鲁棒性。
Mar, 2024
本文提出了一种语义优化方法,称为视觉语义损失(VSL),以辅助模型专注于图像的主要内容,通过对图像的注释文本的利用,减少次要内容的负面影响,通过两个基准数据集(MSCOCO 和 Flickr30K)的大量实验,证明了该方法的卓越性能。
Apr, 2023