EMNLPOct, 2023

对代码搜索中的负对进行重新思考

TL;DR在这篇论文中,我们通过提出一种简单但有效的 Soft-InfoNCE 损失函数,通过将权重项插入 InfoNCE 来解决负样本的问题。我们对负样本的权重进行了三种方法的估计,并展示了原始的 InfoNCE 损失是 Soft-InfoNCE 的一种特殊情况。理论上,我们分析了 Soft-InfoNCE 对学习到的代码表示分布的控制效果,并推导出更精确的互信息估计。此外,我们还讨论了提出的损失函数与其他设计替代方案的优越性。通过在一个包含六种编程语言的大规模公共数据集上进行广泛的实验证明了 Soft-InfoNCE 和权重估计方法在最先进的代码搜索模型中的有效性。