源代码中嵌入式的文献研究
本文介绍了一种新颖的源代码嵌入技术,精心设计了一个基于 Python 的大规模数据集和一个开源的基准测试套件,旨在提高源代码的理解和分类准确度。实验结果表明,该方法与 Word2Vec、BiLSTM、Transformer 等现有方法相比,在减少培训时间和标注数据的情况下可以获得更高的准确度。
Dec, 2019
本文提出了一种基于语言模型的深度上下文化单词表征,通过使用 ELMo 框架训练这些嵌入来研究其在下游缺陷检测任务中的有效性,并表明即使在相对较小的代码库中,低维度的嵌入也可以改进最先进的机器学习系统进行缺陷检测。
Apr, 2020
研究机器学习模型,学习低维表示模式,将词嵌入技术应用于人类行为挖掘,探讨其优势和趋势,并警示相似性度量常常在单独层面返回一致结果,但在聚合层面则有可能产生不同结果。
Jul, 2022
本研究提出了动态嵌入,这是一种递归机制,能够依据变量在程序中的角色来调整学习到的语义,该方法在代码自动补全和错误修复任务中,显著提高了循环神经网络的性能。
Oct, 2020
本文提出了一种学习代码语义的新颖处理技术,并将其应用于各种程序分析任务中,其中使用的 Embeddings 基于独立于源编程语言的代码的 IR,现有技术不足以强烈理解程序语义。
Jun, 2018
本文是一篇关于临床自然语言处理中嵌入表示法的全面调查研究,讨论了各种医学语料库及其特征、医学编码、流行嵌入模型的概述和比较,并将临床嵌入表示划分为九类,并详细讨论每种嵌入类型,探讨临床嵌入表示法中的各种挑战及可能的解决方案和未来研究方向。
Mar, 2019
本文系统地评估了深度神经网络、代码搜索、嵌入、监督技术和网络复杂度的设计选择,结果显示添加监督到现有的无监督技术可以提高性能,对于代码搜索,简单的网络可以比基于序列的复杂网络更有效,使用文档字符串进行监督的效果存在一定差距。
May, 2019
本研究通过分析逐渐增长的跨语言代码模型的代码嵌入,展示了代码嵌入包含两个不同组成部分,一个与特定语言的细微差别和语法紧密相连,另一个则与此类细节无关,主要关注语义。此外,我们证明在去除特定语言组成部分后,下游代码检索任务有着显著改进,平均逆向排名 (MRR) 可达 + 17 的绝对增益。
Oct, 2023
本文探讨了使用不同的资源如临床笔记、生物医学出版物、维基百科和新闻训练的词嵌入,经过定性和定量评估后发现,基于临床笔记和生物医学出版物训练的词嵌入能更好地捕捉医学术语的语义,更接近于专家的判断,但是,无法为所有下游生物医学 NLP 任务提供一致的全局排名,只能将它们作为额外特征来提高大多数下游任务的结果。
Feb, 2018
通过评估 14 个不同的嵌入模型并开发相应的漏洞定位模型,我们的研究表明,预训练策略显著影响嵌入质量,并且嵌入模型对数据的熟悉程度对漏洞定位模型的性能有着显著影响。当训练数据和测试数据来自不同的项目时,漏洞定位模型的性能会出现大幅波动。
Jun, 2024