训练于编程语言的语言模型中有意义迹象的证据

May, 2023

训练于编程语言的语言模型中有意义迹象的证据

Evidence of Meaning in Language Models Trained on Programs

Charles Jin, Martin Rinard

TL;DR本文研究使用程序语言这一中间测试平台，探究语言模型是否能够理解语义，并发现 Transform 模型可通过样例抽象出当前和未来程序状态，使用的探测器准确率与执行输入所生成的程序一致。文中还提出了一种语义干预的实验方法，并展示了模型能够生成更短、更正确的程序。

Abstract

We present evidence that language models can learn meaning despite being trained only to perform next token prediction on text, specifically a corpus of programs. Each program is preceded by a specification in th

language models program synthesis meaning transformer model abstractions

发现论文，激发创造

神经网络如何理解程序？

本文探讨了基于 NLP 预训练技术的代码表示学习的进展，提出了一种新的程序语义学习模式，即模型应该学习由与操作语义基本操作对齐的表示和不可或缺的环境转换信息构成的信息。为了验证我们的建议，我们提出了一个名为 OSCAR 的分层 Transformer 预训练模型，通过从 IR 和静态分析导出的编码表示中学习来表示基本操作和环境转换信息，证明了 OSCAR 在许多实际软件工程任务中理解程序语义的杰出能力。

May, 2021

探究代码语言模型的学习内容

本研究旨在探究预训练语言模型的能力，在超越表面频率和共现之外理解代码的意义，结果表明该模型能够学习代码的计算语义。

Jun, 2023

利用（模糊测试）测试用例理解程序

通过模糊测试来提高程序理解和代码表示学习的性能，并将此关系纳入学习中，以实现程序的深层语义理解。该方法在代码克隆检测和代码分类等两个程序理解任务上表现出色

May, 2023

从非基于事实的形式获取意义的可证明限制：未来的语言模型将理解什么？

本文研究了在没有辅助的情况下，自然语言处理中的语言模型是否能够理解文本的内涵。研究发现，当文本满足语义透明性时，assertions 可以使系统模拟语义关系，并保留原本等价的关系。但对于某些语言类别而言，表达在不同上下文中可以有不同的含义，这时模拟会变得难以计算。最后，作者提出了这种模拟在计算机语言和自然语言之间的差异，并探讨了其在语义模态和其他语义关系中的应用。总之，未建立在基础语言上的模型在理解语义方面存在本质上的局限。

Apr, 2021

代码表示预训练与程序执行的补充

本论文介绍了一种名为 FuzzPretrain 的方法，利用程序的测试用例中的动态信息，将其嵌入代码的特征表示中，以改善代码搜索的效果，并提供了学习具有区分性的代码表示的实验证据。

Sep, 2023

现实与语言数据的限制

这篇研究使用一个新颖的推理测试来探索语言数据对于计算机理解物理世界的可行性，并强调模型可能直接从纯语言数据中学习的内容。

Aug, 2022

关于编程语言模型训练和评估的语言选择影响

在这项研究中，我们通过使用基于 CodeBERT 的模型分析编程语言的表示来评估编程语言的相似性，发现 C++、Python 和 Java 等语言的标记表示彼此接近，而 Mathematica 和 R 等语言的标记表示存在明显的差异。我们的发现表明，这一现象可能在处理多种语言时导致性能挑战，因此我们建议在训练和评估未来的模型时选择多样化的编程语言。

Aug, 2023

大型语言模型程序

通过使用嵌入式算法来扩展预训练语言模型的能力，作者提出了一种证据支持的问答方法来展示这种方法的优势，相比于传统的 fine-tuning 方法，该方法获得了 6.4％的改进。

May, 2023

我说，你验证：朝向值得信赖的神经程序合成

本文基于大型语言模型，提出了一种改进程序综合器可靠性和总体准确性的方法，通过语言模型自然语言描述求解程序问题，并且学习分析程序和断言的一致性，以判断哪个程序最有可能是正确的，从而通过提供可信的解决方案来改善可靠性

Sep, 2022

透明度揭示语言模型学习含义的过程

通过实验发现，语言模型在处理上下文无关语言时性能良好，但对上下文相关性差的语言的语义关系解释能力较差，本文研究了自然语言中的 “指代不透明” 现象，证明了当前的语言模型不能很好地表示自然语言的语义。

Oct, 2022