神经网络如何理解程序？

May, 2021

How could Neural Networks understand Programs?

Dinglan Peng, Shuxin Zheng, Yatao Li, Guolin Ke, Di He...

TL;DR本文探讨了基于 NLP 预训练技术的代码表示学习的进展，提出了一种新的程序语义学习模式，即模型应该学习由与操作语义基本操作对齐的表示和不可或缺的环境转换信息构成的信息。为了验证我们的建议，我们提出了一个名为 OSCAR 的分层 Transformer 预训练模型，通过从 IR 和静态分析导出的编码表示中学习来表示基本操作和环境转换信息，证明了 OSCAR 在许多实际软件工程任务中理解程序语义的杰出能力。

Abstract

Semantic understanding of programs is a fundamental problem for programming language processing (PLP). Recent works that learn representations of code based on pre-training techniques in NLP have pushed the frontiers in this direction. However, the semantics of PL and NL have essential

program semantics pre-training techniques formal semantics hierarchical transformer-based model software engineering

发现论文，激发创造

训练于编程语言的语言模型中有意义迹象的证据

本文研究使用程序语言这一中间测试平台，探究语言模型是否能够理解语义，并发现 Transform 模型可通过样例抽象出当前和未来程序状态，使用的探测器准确率与执行输入所生成的程序一致。文中还提出了一种语义干预的实验方法，并展示了模型能够生成更短、更正确的程序。

May, 2023

探究代码语言模型的学习内容

本研究旨在探究预训练语言模型的能力，在超越表面频率和共现之外理解代码的意义，结果表明该模型能够学习代码的计算语义。

Jun, 2023

从执行中学习语义解析

本文针对半监督学习中 NL utterances 匹配 program 的任务，提出了一种新的方法 —— 鼓励 parser 为未标注 utterances 生成可执行的 program，并从后验正则化的角度提出了一组新的训练目标，实验显示这些新目标优于常规方法，使半监督和监督学习之间的差距缩小。

Apr, 2021

代码表示预训练与程序执行的补充

本论文介绍了一种名为 FuzzPretrain 的方法，利用程序的测试用例中的动态信息，将其嵌入代码的特征表示中，以改善代码搜索的效果，并提供了学习具有区分性的代码表示的实验证据。

Sep, 2023

神经代码理解：可学习的代码语义表示

本文提出了一种学习代码语义的新颖处理技术，并将其应用于各种程序分析任务中，其中使用的 Embeddings 基于独立于源编程语言的代码的 IR，现有技术不足以强烈理解程序语义。

Jun, 2018

利用（模糊测试）测试用例理解程序

通过模糊测试来提高程序理解和代码表示学习的性能，并将此关系纳入学习中，以实现程序的深层语义理解。该方法在代码克隆检测和代码分类等两个程序理解任务上表现出色

May, 2023

神经符号机：使用弱监督在 Freebase 上学习语义解析器（简化版）

本文介绍了一种基于神经网络和非可微存储器的 Manager-Programmer-Computer 框架，该框架结合了神经网络的深度学习和 Lisp 解释器的机器学习技术，实现了从弱监督到大规模知识库的语义解析，为前沿的符号推理任务提供了有利条件。

Dec, 2016

动态神经程序嵌入用于程序修复

提出了一种基于程序执行轨迹学习的新型语义程序嵌入，相比于基于程序语法的嵌入，可以更准确地捕捉程序语义，并用于预测学生程序提交中的错误类型，并展示了通过该语义嵌入预测进行搜索的效率显著提高的结果。

Nov, 2017

生态语义学：为情境语言理解编程的环境

本文结合环境学派及认知科学的现代理论，为大规模自然语言理解系统提供了一种基于生态语义学的方法，该方法利用了语境环境建构更为结构化的训练环境，使得模型能够较深入地理解、理解和使用语言的方法。

Mar, 2020

利用大脑的自然语言处理能力解释和改进机器的自然语言处理

提出了一种新颖的解释方法，利用人脑阅读复杂自然文本时的脑成像记录来解释最新的四个 NLP 模型 ——ELMo、USE、BERT 和 Transformer-XL 中的词和序列嵌入，研究它们在层深度、上下文长度和注意类型之间的差异，并推测改变 BERT 以更好地对齐脑成像记录将使其更好地理解语言。

May, 2019