用于建模互联网图像、标签及其语义的多视图嵌入空间

Dec, 2012

用于建模互联网图像、标签及其语义的多视图嵌入空间

A Multi-View Embedding Space for Modeling Internet Images, Tags, and their Semantics

Yunchao Gong, Qifa Ke, Michael Isard, Svetlana Lazebnik

TL;DR本文探讨了基于互联网图像和相关文本标签的图像搜索、标签搜索和图像注释等任务，采用典型相关分析（CCA）方法将视觉和文本特征映射到同一隐藏向量空间，在此基础上，引入了表示高级图像语义的第三个视图来训练三个视图的嵌入，并结合多种视觉特征进行训练，实现了高效的嵌入式检索。

Abstract

This paper investigates the problem of modeling internet images and associated text or tags for tasks such as image-to-image search, tag-to-image search, and image-to-tag search (image annotation). We start with

internet images canonical correlation analysis image annotation supervised learning unsupervised learning

发现论文，激发创造

用不对称加权 CCA 和分级核句子嵌入实现图像与文本检索

本文提出了三个可以改善 CCB-MMR 检索性能的新方法，其中包括对称权重的首次使用，基于 Bjork Golub 算法的模型选择和基于核语义嵌入的层次核 CCA，这三种方法联合应用在 MSCOCO 和 Flickr 基准测试中表现优异。

Nov, 2015

语义空间中基于标签传输的自动图像标注

本文提出了一种基于核规范相关分析（KCCA）的标签传播框架，能够构建一个潜在的语义空间来嵌入视觉和文本特征之间的相关性，并在四个数据集上展示了显著的改进。该方法不仅可以处理专家标注的数据集，还可以处理社交媒体上用户自动生成标签的嘈杂数据。

May, 2016

多视角下发现相关子空间的信息检索方法

通过优化每个视图的映射，该方法能够找到直接优化多视图之间数据分析任务的相关子空间，其标准从定义良好的检索任务中产生，检测非线性和本地相似性，并且在保留跨视图邻域相似性方面优于其他替代方案。

Nov, 2015

用 2-Way Nets 实现图像和文本的链接

本文介绍了一种双向神经网络架构，该架构通过使用欧几里得损失将两个数据源的向量进行匹配，并演示了在 MNIST 图像匹配和 Flickr8k、Flickr30k 和 COCO 数据集上的计算机视觉匹配任务中的最新结果。

Aug, 2016

利用特征词嵌入编码先验知识

本研究介绍了如何将先前的知识融入正则化的规范相关分析（CCA）以推导单词嵌入，并在大量数据集上进行了评估。

Sep, 2015

共享多模态嵌入的无监督图像字幕生成

通过共享的、结构化的视觉概念潜在空间，将图像特征转化到语义向量嵌入空间中，并使用同一语言模型将其解码为场景描述，无需明确监督来了解图像；这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库，并且具有鲁棒性。

Aug, 2019

朝着对齐的规范相关分析的初步构想和概念验证结果

提出了一种新的框架 Aligned Canonical Correlation Analysis (ACCA)，通过迭代地解决对齐和多视角嵌入，解决了多数实际情况中需要的传统方法中不清晰的各种数据视角之间的对齐问题。

Dec, 2023

理解、分类和预测语义图像 - 文本关系

本文借鉴视觉传达研究，探究了多模式信息检索的有用语义图像 - 文本关系，在自动收集和扩充数据资源的基础上，采用深度学习系统和三种度量标准（跨模态互信息、语义相关性和图像与文本的状态关系）对八种语义图像 - 文本类别进行了预测，并在一个严格的测试集上展示了该方法的可行性。

Jun, 2019

在汉堡中查找豆子：利用深度语义视觉嵌入实现定位

本研究提出了一种新的两条路径的神经网络，其中视觉路径采用了最新的空间感知池化机制模型，结合从头开始训练的文本路径，实现了一种多模态嵌入。在处理带有标注图像的任务中经过训练后，该模型可提供新的跨模态检索性能和短语的视觉定位，达到了最新的最佳表现。

Apr, 2018

基于语义类别的图像检索的可扩展非线性嵌入

提出了一种新颖的算法，用于通过非线性嵌入向量到低维欧氏空间中进行监督判别距离学习，该方法可以被视为核神经网络，并且可以通过类似于线性 Mahalanobis 距离度量学习算法的近似核化得出，该方法的模型参数数量和测试时间评估复杂度均为 O (dD)，其中 D 是输入特征的维度，d 是投影空间的维数，在具有数十万个训练对的 CNN 特征的数据集上进行了实证比较。

Sep, 2015