代码 - LLMs（不）学习的重要研究 | BriefGPT

Jun, 2024

代码 - LLMs（不）学习的重要研究

A Critical Study of What Code-LLMs (Do Not) Learn

Abhinav Anand, Shweta Verma, Krishna Narasimhan, Mira Mezini

TL;DR研究发现，大型语言模型（code-LLMs）只能编码特定子集的输入令牌之间的关系，并且无法编码语法令牌与标识符之间的关系。此外，与预训练模型相比，微调模型对这些关系的编码较差，并且拥有数十亿参数的更大模型对于代码信息的编码显著较少。

Abstract

large language models trained on code corpora (code-llms) have demonstrated impressive performance in various coding assistance tasks. However, despite their increased size and training dataset, →

large language models code-llms syntactic tokens identifiers attention maps

发现论文，激发创造

探索大型语言模型用于代码解释

使用各种大型语言模型自动生成代码片段的自然语言摘要，研究结果表明，代码语言模型优于其通用模型，而零 - shot 方法在训练集和测试集之间分布不同的数据集上取得了更好的结果。

Oct, 2023

大型语言模型用于代码生成时模型的注意力是否与人类注意力一致？—— 一个实证研究

研究发现在 LLMs 生成代码时，它们所关注的自然语言描述与人类程序员的关注点不一致，而一个基于扰动的计算方法的注意力最大程度地与人类注意力一致，说明我们需要更符合人类关注点的 LLMs 以提高代码生成的可解释性和程序员的信任度。

Jun, 2023

CodeIE：大型代码生成模型比小规模模型更适用于少样本信息提取

本文提出利用 Code-LLMs 如 Codex 代替 NL-LLMs，通过设计以代码为形式的提示和将 IE 任务制定为代码生成任务，有效地解决了信息提取任务的难题，并在七个基准测试中显示其优越性。

May, 2023

提升代码大型语言模型的自然语言能力

提出了一个新的框架，通过集成传统自然语言处理工具，从自然语言需求文本中提取关键词短语，并生成目标代码以解决需求，从而有效提高代码大型语言模型的性能。通过创建一个新的多自然语言代码生成基准测试集，实验证明了该框架的有效性。

Jan, 2024

如果 LLM 是巫师，那么代码就是魔棒：关于代码如何赋予大语言模型作为智能代理的调查

通过将代码集成到大型语言模型的训练数据中，可以提高语言模型的代码生成能力、推理能力以及生成结构化和精确的中间步骤，并将其转化为智能代理在复杂自然语言任务中的应用。

Jan, 2024

BERT 中代码注意力的探索研究

研究表明，将标识符用于代码克隆检测中，可以增加 Transformers 预训练语言模型的性能，对代码进行特定的表示，而不是应用于自然语言处理的通用表示。

Apr, 2022

探究 LLMs 对语言类别的联合编码

大型语言模型研究中发现的语言层次结构及其对语法任务的编码方式提供可解释性证据。

Oct, 2023

自注意力能否强大到学会代码语法和语义？

本文研究了 CodeBERT 模型基于 AST 和静态分析，通过自我关注机制和 Masked Language Modelling（MLM）在令牌级别上学习代码语法和语义的能力，展示了其中自我关注机制在了解代码语法和语义方面的关键作用，并提出了一组任务来分析 CodeBERT 模型，同时，文章还提出了一种替代方法来预训练模型，充分利用当前的预训练策略，即 MLM，以学习代码语法和语义。

Dec, 2022

关于代码生成的大型语言模型调查

基于大规模语言模型的代码生成领域的综述，介绍了对 LLMs 在代码生成领域的最新进展、数据处理、性能评估、实际应用，对学术与实践之间的差距进行了分析，提出了关键挑战和机遇，并提供了一个资源网站以记录和传播该领域的最新进展。

Jun, 2024

CodeGen2：训练大型语言模型处理编程和自然语言的经验教训

本文研究如何通过整合模型架构、学习方法、填充采样和数据分布等四个关键组件来提高大型语言模型在程序综合方面的训练效率，并在 1B LLMs 上开展了一系列实验，提炼出四个教训并发布了 CodeGen2 模型和训练框架。

May, 2023