利用构图线索增强历史图像检索

Mar, 2024

Enhancing Historical Image Retrieval with Compositional Cues

Tingyu Lin, Robert Sablatnig

TL;DR通过将计算美学中的重要因素图像组合导入检索模型，我们的方法能够在分析大量数字化历史图像数据时，更好地考虑图像的组合规则和语义信息，从而提高图像检索的准确性和效果。

Abstract

In analyzing vast amounts of digitally stored historical image data, existing content-based retrieval methods often overlook significant non-semantic information, limiting their effectiveness for flexible exploration across varied themes. To broaden the applicability of →

image retrieval content-based non-semantic information computational aesthetics image composition

发现论文，激发创造

遥感图像的组合检索

本文介绍了一种应用于遥感的组合图像检索方法，该方法允许通过图像示例和文本描述在大型图像库中进行查询，丰富了对单模态查询（无论是视觉还是文本）的描述能力。我们介绍了一种融合了图像 - 图像和文本 - 图像相似度的新方法，证明了视觉 - 语言模型具有足够的描述能力，无需进一步的学习步骤或训练数据。我们提出了一个新的评估基准，重点关注颜色、上下文、密度、存在性、数量和形状的修改。本工作不仅在此任务中取得了最新的技术成果，同时也填补了遥感图像检索领域的空白。

May, 2024

在 Web 上利用专业摄影作品进行创作学习

本研究将照片构图问题视为一个寻找好视角的过程，并利用网络在专业照片样本中挖掘高质量排序样本。实验表明，所提出的视角寻找网络在两个图像裁剪数据集上采用滑动窗口搜索策略取得了最新的性能。

Feb, 2017

图像检索中的文本与图像构成 - 实证之旅

本文提出了一种基于图像和文本相结合的检索方法，利用相似度度量、嵌入式学习以及组合函数对目标图像进行了描述，并在三种不同数据集上进行了验证，证明了该方法在输入查询分类和图像检索方面的有效性。

Dec, 2018

图像检索中的图像 - 文本查询组合学习

本文研究了基于多模态（图像 - 文本）查询的图像检索问题，提出了自编码器模型 ComposeAE，采用深度度量学习方法学习了推动源图像和文本查询组成更接近目标图像的度量，并在 MIT-States、Fashion200k 和 FashionIQ 三个基准数据集上优于当前最先进的 TIRG 方法。

Jun, 2020

分解复式图像检索的语义转移

在组合图像检索任务中，我们将文本作为指导说明，提出了一种语义转换网络（SSN），通过将语义转换分解为两个步骤：从参考图像到视觉原型，再从视觉原型到目标图像，以改善现有方法在检索性能上的不足。

Sep, 2023

教授卷积神经网络组合性

本文提出了一种扩充并训练卷积神经网络的方法，使其学到的特征是组成式的，并促进对对象的分离。实验表明，这种组成式特征学习方法在目标识别任务中相比非组成式基线可以获得更好的性能提升。

Jun, 2017

利用姿势和注视先验理解艺术历史图像中的组成结构

本研究尝试使用当前最先进的机器学习技术自动化艺术品图像构图的分析，通过检测艺术品中的行动区域和动作线以及前景和背景之间的基于姿势的分割，为艺术史学家提供更加高效和精细的分析方法，并且可以使机器更好地理解人类创造的艺术品。

Sep, 2020

何人在何处？自动语义感知人物合成

本文提出了一种全自动的合成模型，该模型能够学习选择和转换符合背景的前景图像，在人体实例合成方面，其结果在视觉上表现令人满意。

Jun, 2017

学习组合视觉协调性以进行互补推荐

本文提出了一种新颖的内容注意力神经网络，可以模拟全局和语义结构的综合组成连贯性，并通过多个头部监督的全局连贯模块（GCL）和基于不同语义 / 关键区域的集中连贯学习模块（FCL）来学习集中连贯性，并在大规模真实世界数据上进行的实验表明，与几种最先进的方法相比，该方法的有效性得到清楚证明。

Jun, 2020

探索视觉检索模型中的组合和语义理解

对视频检索模型在对象和属性、动作以及语义等组成部分的理解进行系统研究并在标准基准数据集上进行实验，发现对象和属性组成部分在视频理解上发挥更重要的作用，且使用预训练的图像 - 文本表示（如 CLIP）的视频检索模型具有更好的语义和组成理解能力。

Jun, 2023