对代码相似性测量和评估技术进行系统的文献综述和元分析,调查了现有方法及其在不同应用领域的特点,揭示了领域内存在的主要挑战。
Jun, 2023
通过添加 Reviewer 模型来限制生成代码的多样性并对生成结果进行评估,从而改善了常见的代码生成算法中对退化方案的倾向,实验结果表明,这种算法实现简单且泛化性强,有望在某些情况下取代最小贝叶斯风险方法。
Nov, 2022
本文通过在 Github 和 Gerrit 代码仓库中挖掘数据进行大规模实验比较两种主要的代码审查员推荐算法 (RevFinder 和基于朴素贝叶斯的方法) 的性能,以确定最佳的代码审查员。我们发现:1)没有一个模型适用于所有项目;2)不同的代码仓库会对推荐结果产生影响;3)利用 Gerrit 中可用的子项目信息可以改善推荐结果。
Jun, 2018
通过精调预训练的 CodeT5 模型,在纠错编辑的过程中提供正确的程序建议,实验结果表明至少可以生成 100 个候选程序之一,并以最相似正确程序的平均编辑距离为 6.84,验证了语言模型在解决初级编程问题时提供最小编辑程序修复建议的有效性。
Sep, 2023
本文通过四种代码相似度度量值的实验分析了代码相似度在程序修复中的重要性,发现其能够排名正确修复项,使搜寻空间减少至少 90%。
Nov, 2018
该研究提出了一种名为 QDup 的工具,它可以无需受监督的数据,利用统计和神经方法结合的无监督流程,从一个大型题目库中获取近似重复和语义相关的问题,并且在高准确率和速度下为学习者提供相关练习题。
Dec, 2022
针对编程在线评测平台的编程问题的难度级别自动估计问题,我们提出了结合文本模态和代码模态的预训练模型构建统一模型的方法,并且通过两个编程在线评测平台数据集的实验证明了该方法的有效性和两种模态的贡献。
Jun, 2024
本文讨论了在 C++ 编写的初级编程课程作业中检测抄袭的方法,提出了一种利用三种基于标记的相似度方法预测是否存在抄袭的计算相似度框架,还测量了每个特征的重要性,并使用人工生成的数据集的结果与原始数据进行了比较。在原始和合成数据集上,我们实现了 0.955 和 0.971 的 F1 分数。
Apr, 2022
本文提出了一种基于上下文学习的评审人匹配方法,解决了用主题建模进行评审者指派时主题上下文信息丢失和难以解释的问题,并在实验中取得了显著的精度提高。
使用大型语言模型 GPT-3.5,通过以少量示例来提示用户编写结构更简单的 Python 程序,以提高程序可维护性和减少代码 bug,并通过定量和定性评估证明了其有效性。
Nov, 2023