LEWIS: 单词图像的潜在嵌入及其语义

ICCVSep, 2015

LEWIS: 单词图像的潜在嵌入及其语义

LEWIS: Latent Embeddings for Word Images and their Semantics

Albert Gordo, Jon Almazan, Naila Murray, Florent Perronnin

TL;DR本文提出一种使用卷积神经网络和加权排名损失函数的方法，从单词图像中直接预测语义概念，实现文本识别和检索中的语义关联，实验证明该方法的正确性和高度准确性。

Abstract

The goal of this work is to bring semantics into the tasks of text recognition and retrieval in natural images. Although text recognition and retrieval have received a lot of attention in recent years, previous w

text recognition text retrieval semantics convolutional neural network ranking loss

发现论文，激发创造

基于层级结构的图像嵌入方法用于语义图像检索

该研究提出了通过将图像映射到类别嵌入中以学习语义鉴别性特征的方法，从而提高图像检索结果的语义一致性。结果显示在 CIFAR-100，NABirds 和 ImageNet 上，学习到的图像嵌入大大提高了图像检索结果的语义一致性。

Sep, 2018

在汉堡中查找豆子：利用深度语义视觉嵌入实现定位

本研究提出了一种新的两条路径的神经网络，其中视觉路径采用了最新的空间感知池化机制模型，结合从头开始训练的文本路径，实现了一种多模态嵌入。在处理带有标注图像的任务中经过训练后，该模型可提供新的跨模态检索性能和短语的视觉定位，达到了最新的最佳表现。

Apr, 2018

揭示词嵌入的梦想：走向语言驱动的图像生成

本研究介绍了一种基于语言的图像生成方法，可以根据单词嵌入语义内容生成自然图像，并且采用两个映射函数实现，该方法在几个用户研究中证明其产生的图像可以捕捉编码在单词嵌入中的概念的一般视觉特性，例如颜色或典型环境，足以区分对象的一般类别。

Jun, 2015

语义投影：从词嵌入中恢复多个不同物体特征的人类知识

该研究探讨了一种计算模型，即词嵌入模型，通过将词表示为多维空间中的向量，从词汇共现模式中学习来自语义记忆中的常见知识，并提出了语义投影的解决方案，以检验词嵌入模型是否能够恢复多种语义特征和对象属性的上下文依赖关系。

Feb, 2018

使用网络图像搜索学习视频和句子的联合表示

该研究旨在基于自然语言查询进行视频检索，并采用嵌入模型进行检索任务的训练，试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧，最终在视频和句子检索任务中实现了明显的改进，并取得了与当前最先进技术相媲美的描述生成性能。

Aug, 2016

可解释的嵌入式技术用于即时视频搜索

通过集成特征嵌入和概念解释到神经网络中进行统一的双重任务学习，本论文实现了将嵌入与语义概念关联，作为视频内容解释的新方法，并在 TRECVid 基准数据集上证明了搜索结果的显著提升。

Feb, 2024

共享多模态嵌入的无监督图像字幕生成

通过共享的、结构化的视觉概念潜在空间，将图像特征转化到语义向量嵌入空间中，并使用同一语言模型将其解码为场景描述，无需明确监督来了解图像；这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库，并且具有鲁棒性。

Aug, 2019

预测图像和视频字幕检索的文本视觉特征

本文提出了一种基于视觉空间进行图像和视频描述检索的深度神经网络模型，通过多尺度句向量化和多层感知器等方法，将文本输入转化为视觉特征表示，实现了优于文本嵌入的多模态检索效果。

Sep, 2017

使用语音到图像检索的语言学习

本研究提出了一种改进的神经网络方法，借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构，实现了从口语训练中创建基于视觉的句子嵌入，相比较前人工作取得了显著提升的图像字幕检索性能，并且揭示了模型的哪些层更适合识别输入中的单词。

Sep, 2019

将语义关系嵌入到词表示中

通过提取语料库中词汇的共现模式来实现无监督学习，学习不仅代表个体单词的表示，还明确捕捉代表单词间语义关联的词向量表示，并通过联合权重和二元分类器来描述单词间的语义关系，取得了普遍类比检测三个基准数据集中的显著性优势。

May, 2015