对代码搜索中的负对进行重新思考

EMNLPOct, 2023

对代码搜索中的负对进行重新思考

Rethinking Negative Pairs in Code Search

Haochen Li, Xin Zhou, Luu Anh Tuan, Chunyan Miao

TL;DR在这篇论文中，我们通过提出一种简单但有效的 Soft-InfoNCE 损失函数，通过将权重项插入 InfoNCE 来解决负样本的问题。我们对负样本的权重进行了三种方法的估计，并展示了原始的 InfoNCE 损失是 Soft-InfoNCE 的一种特殊情况。理论上，我们分析了 Soft-InfoNCE 对学习到的代码表示分布的控制效果，并推导出更精确的互信息估计。此外，我们还讨论了提出的损失函数与其他设计替代方案的优越性。通过在一个包含六种编程语言的大规模公共数据集上进行广泛的实验证明了 Soft-InfoNCE 和权重估计方法在最先进的代码搜索模型中的有效性。

Abstract

Recently, contrastive learning has become a key component in fine-tuning code search models for software development efficiency and effectiveness. It pulls together positive code snippets while pushing negative samples away given search queries. Among →

contrastive learning infonce code search models soft-infonce loss weights estimation methods

发现论文，激发创造

使用软目标进行条件模型的噪声对比估计

通过提出一个新的损失函数，本文解决了 InfoNCE 无法与软目标结合使用的限制，并在常见基准测试中表现优异，包括 ImageNet。

Apr, 2024

条件负采样用于视觉表征对比学习

本文中介绍了一种新的图像对比学习方法，该方法采用有条件的负采样策略来优化互信息估计，与传统的噪声对比估计相比，该方法在多个标准数据集上都获得了 2-5% 的准确度提升，并且在物体检测、实例分割、关键点检测等下游任务中也获得了更好的性能表现。

Oct, 2020

SINCERE: 监督信息噪声对比估计再探讨

通过改进 InfoNCE 的 Supervised InfoNCE REvisited（SINCERE）损失函数，我们提出了一种理论上合理的自监督深度学习方法，可以有效防止同类图像在嵌入空间中互相排斥，从而提高预训练过程中的类别嵌入分离性和最终线性分类器的性能。

Sep, 2023

对抗性对比估计

本文提出了一种对比学习的方法，将负采样器增强为包含一个对抗性学习的混合分布，从而找到更难的负样本，这迫使主模型更好地学习数据的表示，通过在学习词嵌入、序列嵌入和知识图谱嵌入等方面进行评估，观察到了更快的收敛速度和更好的结果。

May, 2018

排名信息噪音对比估计：通过排名正例提高对比学习

该论文提出了一种名为排名信息噪声对比估计 (RINCE) 的新的信息噪声对比损失，它可以利用相似性排名的信息来学习相应的嵌入空间，并且相比标准 InfoNCE，RINCE 可以通过不完全划分相似和不相似样本的情况来自适应探索相似性信息。此外，该损失函数也可以应用于无监督训练，针对视频的无监督学习，可展现出更优的分类精度、检索率和越界检测表现。

Jan, 2022

噪声对比估计与负采样注释

该研究探讨语言概率模型参数估计中遇到的计算问题及其解决方案，针对噪声对比估计与负采样方法的异同进行分析，发现 NCE 是一种渐近无偏的通用参数估计技术，而负采样则适用于学习词表示，但不适用于通用估计器。

Oct, 2014

利用 TupleInfoNCE 进行对比多模态融合

本文提出了一种使用对比损失进行多模态数据表示学习的方法，在传统方法中，对比不同模态以学习它们之间共享的信息常常会忽略弱模态，因此我们提出了一种新颖的对比学习目标 “TupleInfoNCE”，它不仅基于正负对应关系并且使用多种不同的场景描述构成新的负元组进行对比，确保弱模态不被忽视，并在三种不同的下游任务中显著优于以往的最高水平。

Jul, 2021

通过不对称 InfoNCE 的对抗性对比学习

通过引入不对称信息最大化损失函数（asymmetric InfoNCE objective），从而区分对待对抗样本，提高对抗鲁棒性。该方法在多种微调模型下均能取得优异的效果。

Jul, 2022

条件模型的噪声对比估计和负采样：一致性和统计效率

本文考虑了基于 NCE 的条件模型估计，通过分析两种条件模型变体：一种基于分类目标，另一种基于排序目标，证明了基于排序的 NCE 变体在较弱的假设下提供了一致的参数估计，同时分析了两种方法的统计效率，并在合成数据和语言建模实验中展示了两种方法的效果和权衡。

Sep, 2018

改进聚类句子嵌入的对比学习与焦点信息交叉熵

该研究提出了一个无监督对比学习框架，将 SimCSE 与难负样本挖掘相结合，旨在增强句子嵌入的质量。在各种 STS 基准测试上的实验表明，我们的方法在 Spearman 相关性和表示对齐性和一致性方面改进了句子嵌入。

Oct, 2023