源代码中嵌入式的文献研究

Apr, 2019

A Literature Study of Embeddings on Source Code

Zimin Chen, Martin Monperrus

TL;DR本文综述了单词嵌入技术（如 word2vec）在源代码上的应用，包括将标记、函数 / 方法、方法调用序列、二进制代码等进行嵌入，并提供实验数据和编码嵌入的可视化，我们认为这种数据驱动的自然语言处理技术有很大的潜力应用于未来的源代码分析中。

Abstract

natural language processing has improved tremendously after the success of word embedding techniques such as word2vec. Recently, the same idea has been applied on →

natural language processing word embedding source code embedding techniques data-driven techniques

发现论文，激发创造

学习和评估源代码上下文嵌入

本文介绍了一种新颖的源代码嵌入技术，精心设计了一个基于 Python 的大规模数据集和一个开源的基准测试套件，旨在提高源代码的理解和分类准确度。实验结果表明，该方法与 Word2Vec、BiLSTM、Transformer 等现有方法相比，在减少培训时间和标注数据的情况下可以获得更高的准确度。

Dec, 2019

语言模型生成的源代码嵌入

本文提出了一种基于语言模型的深度上下文化单词表征，通过使用 ELMo 框架训练这些嵌入来研究其在下游缺陷检测任务中的有效性，并表明即使在相对较小的代码库中，低维度的嵌入也可以改进最先进的机器学习系统进行缺陷检测。

Apr, 2020

社会科学的词嵌入：跨学科调查

研究机器学习模型，学习低维表示模式，将词嵌入技术应用于人类行为挖掘，探讨其优势和趋势，并警示相似性度量常常在单独层面返回一致结果，但在聚合层面则有可能产生不同结果。

Jul, 2022

关于循环神经网络变量嵌入在源代码中的研究

本研究提出了动态嵌入，这是一种递归机制，能够依据变量在程序中的角色来调整学习到的语义，该方法在代码自动补全和错误修复任务中，显著提高了循环神经网络的性能。

Oct, 2020

神经代码理解：可学习的代码语义表示

本文提出了一种学习代码语义的新颖处理技术，并将其应用于各种程序分析任务中，其中使用的 Embeddings 基于独立于源编程语言的代码的 IR，现有技术不足以强烈理解程序语义。

Jun, 2018

临床自然语言处理中嵌入技术综述

本文是一篇关于临床自然语言处理中嵌入表示法的全面调查研究，讨论了各种医学语料库及其特征、医学编码、流行嵌入模型的概述和比较，并将临床嵌入表示划分为九类，并详细讨论每种嵌入类型，探讨临床嵌入表示法中的各种挑战及可能的解决方案和未来研究方向。

Mar, 2019

深度学习与代码搜索相遇

本文系统地评估了深度神经网络、代码搜索、嵌入、监督技术和网络复杂度的设计选择，结果显示添加监督到现有的无监督技术可以提高性能，对于代码搜索，简单的网络可以比基于序列的复杂网络更有效，使用文档字符串进行监督的效果存在一定差距。

May, 2019

语言无关代码嵌入

本研究通过分析逐渐增长的跨语言代码模型的代码嵌入，展示了代码嵌入包含两个不同组成部分，一个与特定语言的细微差别和语法紧密相连，另一个则与此类细节无关，主要关注语义。此外，我们证明在去除特定语言组成部分后，下游代码检索任务有着显著改进，平均逆向排名 (MRR) 可达 + 17 的绝对增益。

Oct, 2023

生物医学自然语言处理的词嵌入比较

本文探讨了使用不同的资源如临床笔记、生物医学出版物、维基百科和新闻训练的词嵌入，经过定性和定量评估后发现，基于临床笔记和生物医学出版物训练的词嵌入能更好地捕捉医学术语的语义，更接近于专家的判断，但是，无法为所有下游生物医学 NLP 任务提供一致的全局排名，只能将它们作为额外特征来提高大多数下游任务的结果。

Feb, 2018

编程语言和自然语言的对齐：探索多模态变换器嵌入在缺陷定位中的设计选择

通过评估 14 个不同的嵌入模型并开发相应的漏洞定位模型，我们的研究表明，预训练策略显著影响嵌入质量，并且嵌入模型对数据的熟悉程度对漏洞定位模型的性能有着显著影响。当训练数据和测试数据来自不同的项目时，漏洞定位模型的性能会出现大幅波动。

Jun, 2024