语义空间中基于标签传输的自动图像标注

May, 2016

语义空间中基于标签传输的自动图像标注

Automatic Image Annotation via Label Transfer in the Semantic Space

Tiberio Uricchio, Lamberto Ballan, Lorenzo Seidenari, Alberto Del Bimbo

TL;DR本文提出了一种基于核规范相关分析（KCCA）的标签传播框架，能够构建一个潜在的语义空间来嵌入视觉和文本特征之间的相关性，并在四个数据集上展示了显著的改进。该方法不仅可以处理专家标注的数据集，还可以处理社交媒体上用户自动生成标签的嘈杂数据。

Abstract

automatic image annotation is among the fundamental problems in computer vision and pattern recognition, and it is becoming increasingly important in order to develop algorithms that are able to search and browse large-scale image collections. In this paper, we propose a →

automatic image annotation kernel canonical correlation analysis latent semantic space label propagation framework social media

发现论文，激发创造

用于建模互联网图像、标签及其语义的多视图嵌入空间

本文探讨了基于互联网图像和相关文本标签的图像搜索、标签搜索和图像注释等任务，采用典型相关分析（CCA）方法将视觉和文本特征映射到同一隐藏向量空间，在此基础上，引入了表示高级图像语义的第三个视图来训练三个视图的嵌入，并结合多种视觉特征进行训练，实现了高效的嵌入式检索。

Dec, 2012

大规模近似核规范相关分析

本论文提出了一种基于随机优化算法的近似核正则化典型相关分析方法，具有在处理大规模数据集时计算效率高的特点，该方法应用于语音数据集处理中，包含 $1.4$ 百万的训练样本，以及维度 $M=100000$ 的随机特征空间.

Nov, 2015

大规模半监督目标检测的视觉和语义知识迁移

基于深度卷积神经网络的物体检测系统在许多大规模物体检测基准测试中取得了显着成就，然而，这需要大量的标注边界框来进行训练。本文通过将图像级别分类器转化为物体检测器解决了此问题，并利用来自视觉和语义领域的物体相似性知识，在将分类器转换为没有边界框注释的类别时转移此信息。实验结果表明，我们提出的基于物体相似性的知识转移方法在半监督设置下实现了最先进的检测性能。

Jan, 2018

基于多特征和 t-SNE 的非线性规范相关分析进行土地覆盖图像的半监督分割

提出一种新的半监督图像分割方法，利用径向基函数和经典相关分析算法，通过对少量标记数据进行训练，提取图像的规则变量，并应用 k 均值聚类算法进行分割。

Jan, 2024

无监督相关分析

本篇文章提出了一种无监督的相关分析方法 (UCA)，用于解决在计算机视觉中串联不同领域的问题，并将其与常用的 Cannonical Correlation Analysis (CCA) 方法进行比较，证明 UCA 的性能优于其他无监督的基准线，在某些情况下可以接近于有监督方法的性能。

Apr, 2018

使用语义标签传播技术进行知识库填充

本研究讨论了使用远程监督和特征标注相结合的方法解决知识库填充问题，提出了一种名为语义标签传播的方法，并在实验中显示出了显著的性能提升。

Nov, 2015

朝着对齐的规范相关分析的初步构想和概念验证结果

提出了一种新的框架 Aligned Canonical Correlation Analysis (ACCA)，通过迭代地解决对齐和多视角嵌入，解决了多数实际情况中需要的传统方法中不清晰的各种数据视角之间的对齐问题。

Dec, 2023

用不对称加权 CCA 和分级核句子嵌入实现图像与文本检索

本文提出了三个可以改善 CCB-MMR 检索性能的新方法，其中包括对称权重的首次使用，基于 Bjork Golub 算法的模型选择和基于核语义嵌入的层次核 CCA，这三种方法联合应用在 MSCOCO 和 Flickr 基准测试中表现优异。

Nov, 2015

多通道核规范相关分析用于交叉视图的行人再识别

本文提出了一种解决多摄像头网络中人员重新识别的主要挑战之一，即跨视图外观变化的方法，提出了多特征表示的方法，利用不同核的 KCCA 来学习多个投影空间，在这些空间中最大化了来自不同相机观察到的同一人员样本之间的外观相关性，并最终使用迭代逻辑回归来选择和加权每个特征投影的贡献，并执行两个视图间的匹配。实验评估表明，所提出的解决方案在 VIPeR 和 PRID450s 数据集上获得了可比较的性能，并且相比于现有技术在 PRID 和 CUHK01 数据集上得到了改进。

Jul, 2016

用 2-Way Nets 实现图像和文本的链接

本文介绍了一种双向神经网络架构，该架构通过使用欧几里得损失将两个数据源的向量进行匹配，并演示了在 MNIST 图像匹配和 Flickr8k、Flickr30k 和 COCO 数据集上的计算机视觉匹配任务中的最新结果。

Aug, 2016