一种用于软件代码的深度语言模型

Aug, 2016

一种用于软件代码的深度语言模型

A deep language model for software code

Hoa Khanh Dam, Truyen Tran, Trang Pham

TL;DR提出了一种基于深度学习和 LSTM（长短时记忆）架构的软件代码语言模型，能够有效地学习软件代码中的长时相关性，实验结果显示其有效性。这项工作为构建 DeepSoft，一种端到端，通用的深度学习框架，促进了软件及其开发过程的建模。

Abstract

Existing language models such as n-grams for software code often fail to capture a long context where dependent code elements scatter far apart. In this paper, we propose a novel approach to build a language model

language model software code long short term memory deep learning java projects

发现论文，激发创造

代码摘要的大型语言模型

最近，使用深度学习进行软件工程方面的任务，包括代码生成和摘要等，出现了越来越多的活动。尤其是最新的编码大型语言模型在这些问题上表现良好。在本技术报告中，我们旨在回顾这些模型在代码解释 / 摘要方面的性能，同时调查它们基于自然语言描述的代码生成能力。

May, 2024

长短距离上下文神经网络语言模型

本文提出了一种新的多跨度架构，通过一种新的循环长短期上下文（LSRC）网络，显式地模拟本地（短期）和全局（长期）上下文，分别模拟短期和长期的上下文信息，用于语言模型任务。

Aug, 2017

DeepSeek-Coder：大型语言模型与编程的结合 -- 代码智能的崛起

通过介绍 DeepSeek-Coder 系列，一种从头开始训练的开源代码模型，基于高质量项目级代码语料库进行预训练，利用填空任务和 16K 窗口提升代码生成和填充，在多个基准测试中展现出不仅在开源代码模型中达到最先进的性能，而且超越了诸如 Codex 和 GPT-3.5 等现有的闭源模型。此外，DeepSeek-Coder 模型采用宽松许可证，允许进行研究和无限制的商业应用。

Jan, 2024

语音识别的长跨度语言建模

本文探索多句子语境下神经语言模型的应用，并介绍结合了注意力机制和 LSTM 的新型模型在语音识别和长跨度语言模型方面的实验结果。

Nov, 2019

Big Code != Big Vocabulary: 开放词汇模型用于源代码

本文研究了大规模源代码资料库上各种建模选择如何影响产生的词汇表并呈现出一个开放式词汇表源代码 NLM，可以扩展到比之前的工作大 100 倍的这样一个资料库，并表明这样的模型在三个不同的代码资料库（Java，C，Python）上优于现有技术。

Mar, 2020

语言模型生成的源代码嵌入

本文提出了一种基于语言模型的深度上下文化单词表征，通过使用 ELMo 框架训练这些嵌入来研究其在下游缺陷检测任务中的有效性，并表明即使在相对较小的代码库中，低维度的嵌入也可以改进最先进的机器学习系统进行缺陷检测。

Apr, 2020

提升代码大型语言模型的自然语言能力

提出了一个新的框架，通过集成传统自然语言处理工具，从自然语言需求文本中提取关键词短语，并生成目标代码以解决需求，从而有效提高代码大型语言模型的性能。通过创建一个新的多自然语言代码生成基准测试集，实验证明了该框架的有效性。

Jan, 2024

语义代码搜索的多角度架构

该研究提出了一种多角度跨语言神经框架用于代码 - 文本匹配，具备全球和本地相似性，结果比以往单映射空间的方法更好地完成了这一任务。

May, 2020

更大范围的上下文语言建模

在这项研究中，我们提出了一种新的方法将语料库级别的语篇信息纳入语言模型中，称之为 “大背景语言模型”。我们采用基于长短时记忆单元 (LSTM) 的晚期融合方法，通过对 IMDB、BBC 和 Penn Tree Bank 三个语料库的评估，证明了所提出的模型显著改善了困惑度。通过分析训练的大背景语言模型，我们发现增加上下文句子数量最能使内容单词 (包括名词、形容词和动词) 受益。这表明大背景语言模型通过更好、更简单地捕捉文档的主题，改进了非条件语言模型。

Nov, 2015

语言无关代码嵌入

本研究通过分析逐渐增长的跨语言代码模型的代码嵌入，展示了代码嵌入包含两个不同组成部分，一个与特定语言的细微差别和语法紧密相连，另一个则与此类细节无关，主要关注语义。此外，我们证明在去除特定语言组成部分后，下游代码检索任务有着显著改进，平均逆向排名 (MRR) 可达 + 17 的绝对增益。

Oct, 2023