从自然语言到代码:利用数据进行程序合成
通过挖掘 StackOverflow 帖子中的实际自然语言到代码任务来创建一个数据集,该论文提出了一种以聚类选择为基础的提示技术来确定在 LLMs 提示中包含多少数据以及选择哪些数据,并通过实验表明 LLM 的性能确实对提示中所传递的数据量敏感,对于输入表中存在大量语法变化的任务,聚类选择技术优于随机选择基准模型。
Feb, 2024
通过改善数据质量,例如进行代码转换和模块化,自然语言生成代码的性能可以得到显著提升。研究结果还表明,使用较少但高质量的数据进行模型微调可以优于在原始数据集上进行微调。
Nov, 2023
通过提出一种新颖的生成和重新排序的方法,本研究强调大型语言模型在自然语言生成中的出色能力,并解决了从逻辑形式(LFs)生成自然语言时遇到的一些问题,该方法能够提高生成输出的语义一致性和流畅性,经过多项实验验证了其有效性。
Sep, 2023
利用大型语言模型(LLMs)将自然语言问题转化为 SQL 查询(文本到 SQL)是一种有前途但具有挑战性的方法,特别是在应用于具有复杂和庞大模式的现实世界数据库时。我们提出了一个新的流程来解决这个问题,该流程有效地检索相关数据和上下文,选择一个高效的模式,并合成正确高效的 SQL 查询。
May, 2024
本文提出了一种统一的数据创建流程,只需一个格式示例,适用于包括传统上问题较多的任务在内的广泛范围,通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好(高达 17.5%),同时在分布内任务上保持可比较的性能,这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。
Oct, 2023
该研究调查了代码生成在 “特定领域” 应用中的有效方法,包括使用大型语言模型(LLMs)进行数据分割和更新,以及通过提示调整刺激 LLMs 更深入思考。我们以一款真实的公司产品为例,提供了用户手册、API 文档和其他数据。本文所讨论的思想有助于将这些数据分割并转换为语义向量,以更好地反映它们的真实定位。随后,将用户需求转换为向量以检索最相关的内容,在简单到中等复杂的任务中通过各种提示技术实现约 70% 的准确率。本文首次从这个角度增强了特定领域的代码生成效果。此外,我们还通过使用 llama2 进行基于微调的有限脚本生成实验,测试其在专业领域代码生成中的有效性。这是一个具有挑战性和有希望的领域,一旦实现,它不仅将在多个行业中取得突破,而且还能够使 LLMs 有效地理解和学习任何新知识。
Nov, 2023
本文研究了是否通过显式添加语义信息来改善大型语言模型在代码汇总任务中的性能,发现通过添加语义信息可以显著提高模型性能,特别是在 PHP 语言的 CodeSearchNet 数据集上。
Apr, 2023
本文介绍 Evaporate 和 Evaporate-code+ 系统,用大的语言模型库开发这些系统可以在保证较低成本的同时提高提取数据质量,并且在处理了一系列文档的情况下达到了比现有技术更好的性能.
Apr, 2023
本论文提出了一个用自然语言输入构造程序合成器的框架,其使用 NLP 特征和关键词编程翻译的排名学习最优权重和分类器来代替学习并使用各种领域特定语言,可以用于编辑、智能教育系统和飞行信息查询等多个领域。通过 1200 多个英语说明,各合成器为 80%和 90%的说明将期望的程序排名为最好的一个和三个。
Sep, 2015