VSE++：使用硬负例改进视觉 - 语义嵌入

Jul, 2017

VSE++：使用硬负例改进视觉 - 语义嵌入

VSE++: Improving Visual-Semantic Embeddings with Hard Negatives

Fartash Faghri, David J. Fleet, Jamie Ryan Kiros, Sanja Fidler

TL;DR利用视觉 - 语义嵌入的新技术进行跨模态检索，通过采用 hard negative mining，结构化预测中的 hard negatives 和排名损失函数的结合，对多模态嵌入的常见损失函数进行简单改变，在微调和使用增强数据的情况下获得了显著的检索性能提升。作者在 MS-COCO 和 Flickr30K 数据集中展示了他们的方法 VSE ++，并使用消融研究和与现有方法的比较。在 MS-COCO 的图像和标题检索中，他们的方法在 R@1 上比现有技术方法分别提高了 11.3％和 8.8％。

Abstract

We present a new technique for learning visual-semantic embeddings for cross-modal retrieval. Inspired by hard negative mining, the use of hard negatives in structured prediction, and →

visual-semantic embeddings cross-modal retrieval hard negatives ranking loss functions retrieval performance

发现论文，激发创造

VSE-ens: 带有有效负采样的视觉 - 语义嵌入

本文提出快速自适应负采样算法，解决了图像语义嵌入中负采样难题，该算法能够线性处理大型数据集，并且比目前最先进的方法在 OpenImages，IAPR-TCI2 和 NUS-WIDE 数据集上的收敛速度分别提高了 5.02 倍， 2.5 倍和 2.06 倍，在各个数据集上获得较好的排名准确性。

Jan, 2018

从对比对抗样本中学习视觉基础语义

该研究旨在解决将文本的分布式表示与视觉域进行关联的问题。通过对视觉语义嵌入的深入研究，提出了基于语言规则和 WordNet 知识库的对抗样本技术，通过在 MS-COCO 图像字幕数据集上的评估取得了良好效果。

Jun, 2018

UniVSE: 通过结构化语义表示实现强健的视觉语义嵌入

该论文提出了统一的视觉语义嵌入方法，采用对比学习的方法从仅有的图像 - 标题对中对不同水平的概念进行对齐，对于句子中出现的语义组件进行了有效处理，证明该方法具有鲁棒性和可靠性。

Apr, 2019

改进聚类句子嵌入的对比学习与焦点信息交叉熵

该研究提出了一个无监督对比学习框架，将 SimCSE 与难负样本挖掘相结合，旨在增强句子嵌入的质量。在各种 STS 基准测试上的实验表明，我们的方法在 Spearman 相关性和表示对齐性和一致性方面改进了句子嵌入。

Oct, 2023

SNCSE: 无监督句子嵌入的对比学习与软负样本

本文通过引入软负样本和双向边缘损失来改善当前无监督对比学习中的特征抑制问题，在语义文本相似度任务上取得了最优结果。

Jan, 2022

对比学习的硬负样本混合

研究表明，在自监督学习中使用 hard negatives, 数据混合等技术可以提高视觉表示的质量，本文提出了一种基于特征水平的硬负例混合策略，并在多个任务上验证其有效性。

Oct, 2020

T-VSE: 基于 Transformer 的视觉语义嵌入

本文研究了基于 Transformer 模型的跨模态图文检索问题，发现在大规模电商产品数据集上，相比于 RNN 等传统语言模型以及简单的平均词向量模型，基于 Transformer 的跨模态嵌入表现更加优秀。

May, 2020

使用硬负实体进行对比学习以扩展实体集

本文提出一个利用掩蔽语言模型和概率性扩展框架进行实体集扩展的方法，实验结果表明其在三个数据集上优于现有最先进方法。

Apr, 2022

基于语义的零样本学习视觉嵌入

提出了一种称为 joint embeddings for zero-shot learning 的方法，通过计算代理任务上的两流网络中的联合图像和文本模型来学习语义基础和丰富的视觉信息，并利用辅助字幕来提高图像和文本表示之间的对齐，从而在多个基准数据集上评估了该方法，在标准的（aPY 上 + 1.6％，FLO 上 + 2.6％）和常规的（AWA2 上 + 2.1％，CUB 上 + 2.2％）零 - shot 识别中提高了现有最先进方法的性能。

Jan, 2022

使用最难和半难负对挖掘的视觉 - 文本关联在人物搜索中的应用

提出了一种采用视觉和文本注意力、交叉模态最难和半硬负对挖掘的新型视觉文本关联方法，通过在 CUHK-PEDES 数据集上的广泛实验，实现了 55.32% 的 top1 得分，成为了新的最先进方法。同时，在 COCO 字幕数据集上评估了半硬匹配挖掘方法，并验证了方法的有效性和互补性。

Dec, 2019