零样本学习的深度嵌入模型学习

CVPRNov, 2016

Learning a Deep Embedding Model for Zero-Shot Learning

Li Zhang, Tao Xiang, Shaogang Gong

TL;DR本研究提出使用视觉空间作为嵌入空间，以解决深度零样本学习模型的瓶颈问题，并提供了一种自然的机制来联合优化多个语义模态。实验表明，与现有模型相比，该模型明显优于其他模型。

Abstract

zero-shot learning (ZSL) models rely on learning a joint embedding space where both textual/semantic description of object classes and visual representation of object images can be projected to for nearest neighbour search. Despite the success of deep neural networks that learn an end-

zero-shot learning deep learning nearest neighbour search semantic modalities visual space

发现论文，激发创造

零样本学习有效深度嵌入

本文针对零样本学习中的交叉域匹配问题，详细探讨优秀的 embedding 空间应满足的两个标准：类内紧度和类间可分性，并提出了一种基于两个分支网络的方法来同时映射语义描述和视觉样本到 joint 空间，并在其中强制要求视觉嵌入与类级语义嵌入相同，同时实现区分可训练分类器，实现跨未知类别输入的优化过程。此外，我们还扩展了我们的方法来处理 ZSL 中的模型偏差问题，并在五个标准数据集上获得了卓越的性能。

Aug, 2018

零样本识别的潜在特征判别学习

该研究提出了一种能够自动发现显著区域及在增强的空间中学习辨别性语义表征的端到端网络，用于零样本学习中。在两个具有挑战性的零样本学习数据集上测试，实验结果显示该方法明显优于现有最先进的方法。

Mar, 2018

零样本学习的信息瓶颈约束潜在双向嵌入

该论文提出一种新型的双向嵌入式生成模型，通过信息瓶颈和不确定性估计等手段，实现图像和语义的有效对齐和映射，从而解决了零样本学习中的种种问题。

Sep, 2020

基于视觉语义嵌入的广义零样本识别

本文提出了一种新颖的广义零样本学习（GZSL）方法，它对训练期间的未见图像和未见语义向量具有不可知性。通过提出一种视觉实例的低维嵌入来打破视觉 - 语义间隙，并借助一个新的视觉神谕来量化噪声语义数据的影响，以提高准确性。在一系列数据集上用图模型进行推理的实验结果显示，该方法在语义和视觉监督下均明显优于现有技术。

Nov, 2018

基于自训练字典方法的推导式零样本学习

本文提出一种基于双向映射的语义关系建模方案，实现跨模态的知识转移并解决领域转化问题，通过迭代更新使得分类器不断加强预测能力，实验结果在三个基准数据集上显著优于现有方法。

Mar, 2017

使用生成潜在原型模型进行零样本学习

采用概率生成建模的方法，基于潜在空间中的原型及其语义关系，生成虚拟的未见类实例以解决直接迁移学习中存在的域偏移问题，实验结果表明该模型优于现有零样本学习方法。

May, 2017

概念嵌入实现的多标签零样本学习

本文提出了一种基于概念嵌入和语义学习模型的多标签零样本学习方法，可以高效地将未知类别在已有的概念嵌入空间中进行映射，并在实验中证明在处理含有未知标签的场景时，该方法优于现有多标签零样本学习模型且不需要对语义学习模型进行重新训练。

Jun, 2016

零样本动作识别的语义嵌入空间

本篇论文探讨零样本学习在现代视频动作识别任务中的应用，采用语义词向量空间作为视频和类别标签的共同空间来解决语义信息相对复杂，并且难以学习的问题。通过自我训练和数据增强等策略，大大提高了这种映射的有效性，在 HMDB51 和 UCF101 等人体动作数据集上，本方法实现了最新的零样本动作识别性能。

Feb, 2015

通过结构对齐学习类别原型以实现零样本识别

本文提出了一种基于耦合字典学习的零样本学习方法，该方法通过利用种类原型中的区分性信息来对齐视觉 - 语义结构，进而提高不太具有区分性的语义空间的表现，并通过简单的最近邻方法在不同空间上执行零样本识别。在四个基准数据集上的实验证明了该方法的有效性。

Jul, 2018

基于语义的零样本学习视觉嵌入

提出了一种称为 joint embeddings for zero-shot learning 的方法，通过计算代理任务上的两流网络中的联合图像和文本模型来学习语义基础和丰富的视觉信息，并利用辅助字幕来提高图像和文本表示之间的对齐，从而在多个基准数据集上评估了该方法，在标准的（aPY 上 + 1.6％，FLO 上 + 2.6％）和常规的（AWA2 上 + 2.1％，CUB 上 + 2.2％）零 - shot 识别中提高了现有最先进方法的性能。

Jan, 2022