函数助手:用于 API 的自然语言查询工具
本论文介绍了一个由十万个 Python 函数及其文档字符串(docstrings)组成的大型多样并行语料库,用于自然语言生成代码和代码文档生成任务的基线结果是经过神经机器翻译获得的。
Jul, 2017
本文介绍了一种 AstBERT 模型,该模型基于预训练的编程语言模型,使用抽象语法树从语义和句法两方面来更好地理解金融代码,通过 Alipay 代码库中大量的 Java 和 Python 代码进行训练,并通过代码解析器将抽象语法树信息整合进模型中,最终,在代码问答、代码克隆检测和代码优化三个任务中获得了良好的性能。
Jan, 2022
DocPrompting是一种自然语言到代码生成的方法,利用文档(documentation)明确地生成代码。通过应用于各种编程语言,我们证明了它可以改进自然语言到代码模型,可以提高2.85%的绝对正确率。
Jul, 2022
本文旨在通过设计APIRetriever和APICoder框架,在预训练语言模型中加入私有库的代码生成功能,并提出了包含密集检索系统的友好交互。该框架可训练于公共库数据,表现出了出色的性能。
Oct, 2022
评估了新一代语言模型在软件工程领域的能力,通过SWE-bench框架提供了包括软件工程问题和对应Python库的真实GitHub问题的解决方案,结果表明目前的模型在解决问题时仍存在困难,呼吁进一步提高模型在实际应用中的智能和自主能力。
Oct, 2023
CodeScholar是一个工具,通过神经引导的搜索技术,生成API方法的习惯用法示例,帮助开发人员并与程序合成中的语言模型助手生成准确的代码。
Dec, 2023
该论文介绍了APIGen,一种自动化数据生成方法,旨在合成可验证的高质量数据集以支持函数调用应用。通过APIGen,作者收集了21个不同类别的3,673个可执行API,以可扩展和有结构的方式生成多样的函数调用数据集。而且,通过三个层次的验证(格式检查、实际函数执行和语义验证),确保了数据集的可靠性和正确性。作者演示了即使只有7B参数,使用他们精选的数据集进行训练的模型也能在伯克利函数调用基准测试中取得最先进的性能,超过多个GPT-4模型。此外,他们的1B模型取得了出色的性能,超越了GPT-3.5-Turbo和Claude-3 Haiku。作者发布了一个包含60,000个高质量条目的数据集,旨在推动函数调用代理领域的发展。此数据集可在Huggingface(链接)和项目主页(链接)上获取。
Jun, 2024
该研究论文介绍了一个名为ShortcutsBench的大规模基准测试,用于评估基于API的代理程序在解决具有不同难度级别、任务类型和真实需求的任务中的性能。通过使用5个主流开源的以及4个闭源的大型语言模型进行实验,发现基于API的代理程序在处理与API选择、参数填充以及系统和用户请求必要信息相关的复杂查询时存在显著的局限性。
Jun, 2024
通过构建 CodeUpdateArena 基准,本研究旨在研究如何更新代码领域的大型语言模型(LLMs)对代码 API 函数的知识,以及解决与之相关的程序合成问题,结果表明先前已有的知识编辑技术以及给开源代码 LLMs 添加更新文档的方法存在改进的空间。
Jul, 2024
本研究解决了大型语言模型函数调用应用中,难以收集和标注高质量真实数据的问题。提出了一种名为ToolACE的自动化生成工具学习数据的新方法,该方法通过自我进化合成过程生成准确且多样的工具调用数据。研究表明,基于合成数据训练的模型,即便参数量仅为8B,在伯克利函数调用排行榜上也能达到与最新GPT-4模型相媲美的性能,具有重要的应用前景。
Sep, 2024