利用构图线索增强历史图像检索
本文介绍了一种应用于遥感的组合图像检索方法,该方法允许通过图像示例和文本描述在大型图像库中进行查询,丰富了对单模态查询(无论是视觉还是文本)的描述能力。我们介绍了一种融合了图像 - 图像和文本 - 图像相似度的新方法,证明了视觉 - 语言模型具有足够的描述能力,无需进一步的学习步骤或训练数据。我们提出了一个新的评估基准,重点关注颜色、上下文、密度、存在性、数量和形状的修改。本工作不仅在此任务中取得了最新的技术成果,同时也填补了遥感图像检索领域的空白。
May, 2024
本研究将照片构图问题视为一个寻找好视角的过程,并利用网络在专业照片样本中挖掘高质量排序样本。实验表明,所提出的视角寻找网络在两个图像裁剪数据集上采用滑动窗口搜索策略取得了最新的性能。
Feb, 2017
本文提出了一种基于图像和文本相结合的检索方法,利用相似度度量、嵌入式学习以及组合函数对目标图像进行了描述,并在三种不同数据集上进行了验证,证明了该方法在输入查询分类和图像检索方面的有效性。
Dec, 2018
本文研究了基于多模态(图像 - 文本)查询的图像检索问题,提出了自编码器模型 ComposeAE,采用深度度量学习方法学习了推动源图像和文本查询组成更接近目标图像的度量,并在 MIT-States、Fashion200k 和 FashionIQ 三个基准数据集上优于当前最先进的 TIRG 方法。
Jun, 2020
在组合图像检索任务中,我们将文本作为指导说明,提出了一种语义转换网络(SSN),通过将语义转换分解为两个步骤:从参考图像到视觉原型,再从视觉原型到目标图像,以改善现有方法在检索性能上的不足。
Sep, 2023
本文提出了一种扩充并训练卷积神经网络的方法,使其学到的特征是组成式的,并促进对对象的分离。实验表明,这种组成式特征学习方法在目标识别任务中相比非组成式基线可以获得更好的性能提升。
Jun, 2017
本研究尝试使用当前最先进的机器学习技术自动化艺术品图像构图的分析,通过检测艺术品中的行动区域和动作线以及前景和背景之间的基于姿势的分割,为艺术史学家提供更加高效和精细的分析方法,并且可以使机器更好地理解人类创造的艺术品。
Sep, 2020
本文提出了一种新颖的内容注意力神经网络,可以模拟全局和语义结构的综合组成连贯性,并通过多个头部监督的全局连贯模块(GCL)和基于不同语义 / 关键区域的集中连贯学习模块(FCL)来学习集中连贯性,并在大规模真实世界数据上进行的实验表明,与几种最先进的方法相比,该方法的有效性得到清楚证明。
Jun, 2020
对视频检索模型在对象和属性、动作以及语义等组成部分的理解进行系统研究并在标准基准数据集上进行实验,发现对象和属性组成部分在视频理解上发挥更重要的作用,且使用预训练的图像 - 文本表示(如 CLIP)的视频检索模型具有更好的语义和组成理解能力。
Jun, 2023