May, 2023

使用BERT和查询感知LSH改进非正式文档中的代码示例推荐:一项比较研究

TL;DR利用BERT模型将Stack Overflow上的Java编程语言代码样例转换为数字向量,并应用LSH算法识别近似最近邻,对比了Random Hyperplane-based LSH 和 Query-Aware LSH两个算法,发现Query-Aware LSH算法的HitRate提高了20%到35%,而且至少比Random Hyperplane-based LSH算法快4倍,几乎可以即时返回代码样例。