代码 - LLMs(不)学习的重要研究
使用各种大型语言模型自动生成代码片段的自然语言摘要,研究结果表明,代码语言模型优于其通用模型,而零 - shot 方法在训练集和测试集之间分布不同的数据集上取得了更好的结果。
Oct, 2023
研究发现在 LLMs 生成代码时,它们所关注的自然语言描述与人类程序员的关注点不一致,而一个基于扰动的计算方法的注意力最大程度地与人类注意力一致,说明我们需要更符合人类关注点的 LLMs 以提高代码生成的可解释性和程序员的信任度。
Jun, 2023
本文提出利用 Code-LLMs 如 Codex 代替 NL-LLMs,通过设计以代码为形式的提示和将 IE 任务制定为代码生成任务,有效地解决了信息提取任务的难题,并在七个基准测试中显示其优越性。
May, 2023
提出了一个新的框架,通过集成传统自然语言处理工具,从自然语言需求文本中提取关键词短语,并生成目标代码以解决需求,从而有效提高代码大型语言模型的性能。通过创建一个新的多自然语言代码生成基准测试集,实验证明了该框架的有效性。
Jan, 2024
通过将代码集成到大型语言模型的训练数据中,可以提高语言模型的代码生成能力、推理能力以及生成结构化和精确的中间步骤,并将其转化为智能代理在复杂自然语言任务中的应用。
Jan, 2024
研究表明,将标识符用于代码克隆检测中,可以增加 Transformers 预训练语言模型的性能,对代码进行特定的表示,而不是应用于自然语言处理的通用表示。
Apr, 2022
本文研究了 CodeBERT 模型基于 AST 和静态分析,通过自我关注机制和 Masked Language Modelling(MLM)在令牌级别上学习代码语法和语义的能力,展示了其中自我关注机制在了解代码语法和语义方面的关键作用,并提出了一组任务来分析 CodeBERT 模型,同时,文章还提出了一种替代方法来预训练模型,充分利用当前的预训练策略,即 MLM,以学习代码语法和语义。
Dec, 2022
基于大规模语言模型的代码生成领域的综述,介绍了对 LLMs 在代码生成领域的最新进展、数据处理、性能评估、实际应用,对学术与实践之间的差距进行了分析,提出了关键挑战和机遇,并提供了一个资源网站以记录和传播该领域的最新进展。
Jun, 2024
本文研究如何通过整合模型架构、学习方法、填充采样和数据分布等四个关键组件来提高大型语言模型在程序综合方面的训练效率,并在 1B LLMs 上开展了一系列实验,提炼出四个教训并发布了 CodeGen2 模型和训练框架。
May, 2023