超越独热编码:注入语义驱动图像分类器
深度学习模型的一致性是通过使用语义损失来提高,该语义损失结合了基于标签的损失和惩罚包含关系或不相交关系的项。评估结果表明该语义损失能够显著减少一致性违规,同时不降低分类性能,并且还能进一步提高在无监督数据上的一致性。
May, 2024
该研究提出了通过将图像映射到类别嵌入中以学习语义鉴别性特征的方法,从而提高图像检索结果的语义一致性。结果显示在 CIFAR-100,NABirds 和 ImageNet 上,学习到的图像嵌入大大提高了图像检索结果的语义一致性。
Sep, 2018
该研究介绍一种用于多标签零样本学习的神经网络模型训练方法,该方法使用具有主要嵌入向量的嵌入矩阵并在训练期间加权损失函数以鼓励嵌入矩阵多样化,以提高基于标签的图像检索的零样本模型的质量。该方法在多个常见数据集(NUS-Wide,COCO, Open Images)上实现了 SoTA 的结果。
May, 2021
本文介绍了一种用于训练多标签、大规模多类别图像分类模型的方法,通过将高维稀疏标签嵌入到具有单位范数的低维密集球体上,并将分类问题视为该球体上余弦相似度回归问题,其比基于逻辑回归的 sigmoid 交叉熵损失函数的监督方法更快更准确,经过在 300 million 高分辨率图像和 17,000 标签的数据集上测试,相对于逻辑回归,该方法收敛速度明显提高,平均精度也提高了 7%。
Jul, 2016
本文提出了一种新的零样本图像分类方法,通过度量学习来控制图像的语义嵌入,实现了不需要在训练阶段使用类别的零样本学习,仅需在地面实况中提供以图像 / 属性为对的约束关系,使得学习模型可以预测一个测试图像与给定属性的一致性,并且该方法在四个挑战性数据集上取得了最好的效果。
Jul, 2016
基于深度卷积神经网络的物体检测系统在许多大规模物体检测基准测试中取得了显着成就,然而,这需要大量的标注边界框来进行训练。本文通过将图像级别分类器转化为物体检测器解决了此问题,并利用来自视觉和语义领域的物体相似性知识,在将分类器转换为没有边界框注释的类别时转移此信息。实验结果表明,我们提出的基于物体相似性的知识转移方法在半监督设置下实现了最先进的检测性能。
Jan, 2018
本文介绍了一种使用语义嵌入深度神经网络,采用基于空间感知语义特征和通道注意力模型的方法来提高多标签预测模型性能的方法。实验证明,与基线方法相比,该方法平均相对改进 15.27%,在 Instagram 时尚服装图像上进行了多标签时尚属性分类的核心实验和消融研究,并将模型性能与我们的方法进行比较,发现我们的方法性能更优秀。
May, 2023
通过引入基于认知科学文献的方法工具,本研究介绍了一项基准测试来评估人工模型的偏差,并使用这个基准测试评估了 CLIP 模型。我们发现,虽然单词嵌入的图像会扭曲 CLIP 模型在不同类别级别上的图像分类,但这种影响不依赖于图像和嵌入单词之间的语义关系,这表明 CLIP 视觉处理中的语义词表示与图像表示不共享。
Jan, 2022
本文提出一种使用卷积神经网络和加权排名损失函数的方法,从单词图像中直接预测语义概念,实现文本识别和检索中的语义关联,实验证明该方法的正确性和高度准确性。
Sep, 2015