一种用于软件代码的深度语言模型
最近,使用深度学习进行软件工程方面的任务,包括代码生成和摘要等,出现了越来越多的活动。尤其是最新的编码大型语言模型在这些问题上表现良好。在本技术报告中,我们旨在回顾这些模型在代码解释 / 摘要方面的性能,同时调查它们基于自然语言描述的代码生成能力。
May, 2024
本文提出了一种新的多跨度架构,通过一种新的循环长短期上下文(LSRC)网络,显式地模拟本地(短期)和全局(长期)上下文,分别模拟短期和长期的上下文信息,用于语言模型任务。
Aug, 2017
通过介绍 DeepSeek-Coder 系列,一种从头开始训练的开源代码模型,基于高质量项目级代码语料库进行预训练,利用填空任务和 16K 窗口提升代码生成和填充,在多个基准测试中展现出不仅在开源代码模型中达到最先进的性能,而且超越了诸如 Codex 和 GPT-3.5 等现有的闭源模型。此外,DeepSeek-Coder 模型采用宽松许可证,允许进行研究和无限制的商业应用。
Jan, 2024
本文研究了大规模源代码资料库上各种建模选择如何影响产生的词汇表并呈现出一个开放式词汇表源代码 NLM,可以扩展到比之前的工作大 100 倍的这样一个资料库,并表明这样的模型在三个不同的代码资料库(Java,C,Python)上优于现有技术。
Mar, 2020
本文提出了一种基于语言模型的深度上下文化单词表征,通过使用 ELMo 框架训练这些嵌入来研究其在下游缺陷检测任务中的有效性,并表明即使在相对较小的代码库中,低维度的嵌入也可以改进最先进的机器学习系统进行缺陷检测。
Apr, 2020
提出了一个新的框架,通过集成传统自然语言处理工具,从自然语言需求文本中提取关键词短语,并生成目标代码以解决需求,从而有效提高代码大型语言模型的性能。通过创建一个新的多自然语言代码生成基准测试集,实验证明了该框架的有效性。
Jan, 2024
在这项研究中,我们提出了一种新的方法将语料库级别的语篇信息纳入语言模型中,称之为 “大背景语言模型”。我们采用基于长短时记忆单元 (LSTM) 的晚期融合方法,通过对 IMDB、BBC 和 Penn Tree Bank 三个语料库的评估,证明了所提出的模型显著改善了困惑度。通过分析训练的大背景语言模型,我们发现增加上下文句子数量最能使内容单词 (包括名词、形容词和动词) 受益。这表明大背景语言模型通过更好、更简单地捕捉文档的主题,改进了非条件语言模型。
Nov, 2015
本研究通过分析逐渐增长的跨语言代码模型的代码嵌入,展示了代码嵌入包含两个不同组成部分,一个与特定语言的细微差别和语法紧密相连,另一个则与此类细节无关,主要关注语义。此外,我们证明在去除特定语言组成部分后,下游代码检索任务有着显著改进,平均逆向排名 (MRR) 可达 + 17 的绝对增益。
Oct, 2023