COLINGMar, 2024

ProCQA:一个用于编程问答的大型基于社区的代码搜索数据集

TL;DR基于检索的代码问答模型通过预训练模型使用构建的双模和单模数据集来匹配自然语言查询与相关代码片段。本文介绍了 ProCQA,一个从 StackOverflow 社区提取的大规模编程问答数据集,提供自然结构的混合模态问答对。为了验证其有效性,我们提出了一种模态不可知的对比预训练方法,以改善当前代码语言模型的文本和代码表示之间的对齐。与先前主要使用从 CodeSearchNet 中提取的双模和单模对进行预训练的模型相比,我们的模型在广泛的代码检索基准上表现出显著的性能改进。