BriefGPT.xyz
Ask
alpha
关键词
code datasets
搜索结果 - 3
通过合成异常数据解码数据质量:基于嵌入式指导的代码数据剪枝
利用嵌入空间检测和去除低质量代码数据的研究工作表明,采用合成污染信息的剪枝方法 (SCIP) 在数据清理方面取得了显著的性能提升,并展示了合成污染对数据剪枝的有益见解。
PDF
7 months ago
CodeMark:针对神经代码补全模型的隐形代码数据标记
应对代码数据集的版权保护问题,我们提出了一种名为 CodeMark 的方法,通过自适应的语义保持转换,将用户定义的隐形水印嵌入到代码数据集中,以追踪其在训练神经网络代码完成模型中的使用。CodeMark 工具包经过广泛评估,被验证具有实际水
→
PDF
10 months ago
SimSCOOD: 源代码模型的超出分布行为的系统分析
由于代码的组合性和软件的复杂性,获取具有完整代码分布覆盖的代表性训练数据仍然具有挑战性。因此,我们提出了第一种系统性方法,模拟不同维度数据属性的各种 OOD 场景,并研究在这些场景下模型的行为。我们对三项代码生成任务中的六种最先进的模型进行
→
PDF
2 years ago
Prev
Next