探索输出格式对代码翻译的大型语言模型评估的影响
使用大语言模型(LLMs),将代码更改从一种编程语言翻译成另一种编程语言,通过设计和实现名为 Codeditor 的第一个 LLM,我们发现它在所有常用的自动指标上都大幅超越了现有的方法,并且与现有的生成模型配合使用可以获得更好的性能。
Jul, 2023
最近,大型语言模型(LLMs),特别是那些在代码上进行预训练的模型,展现出了从自然语言输入中以少量甚至无需样本的方式生成程序的强大能力。然而,这些模型的语言到代码生成能力缺乏全面的评估。本研究通过 L2CEval 系统地评估了 LLMs 在 7 个任务(包括语义解析、数学推理和 Python 编程)中的语言到代码生成能力,分析了可能影响它们性能的因素,如模型大小、预训练数据、指令调整和不同的提示方法。除了评估模型性能,我们还衡量了模型的置信度校准情况,并对输出的程序进行人工评估。这使我们能够识别并分析各种任务和模型的典型失败模式。L2CEval 提供了对 LLMs 在语言到代码生成方面能力和限制的全面了解。同时,我们还发布了评估框架和所有模型输出,希望为今后在该领域的进一步研究奠定基础。
Sep, 2023
LLMs 和基于学习的转译器在自动代码转换任务中取得了显著的性能提升,但当前仍存在一些准确性问题和资源限制。本研究发现,大部分失败源于对源程序的理解不足、在转换中缺少清晰的 I/O 类型指令以及源程序与目标程序之间的差异被忽略。鉴于以上研究结果,我们提出了 UniTrans,一个适用于多种 LLMs 的统一代码转换框架,通过生成测试用例、自动增强转换并验证正确性的执行过程,进一步修复转换错误。在 Python、Java 和 C++ 之间的六个转换数据集上进行了大量实验,三个最近的 LLMs 通过 UniTrans 实现了大幅度的改进。
Apr, 2024
利用对最近的大型语言模型进行了代码测试的详尽分析,本研究展示了这些模型的一系列有趣性质,并展示了如何改进大型语言模型的程序测试能力,通过利用生成的测试用例来提高合成程序的质量,相较于 GPT-3.5-turbo 和最新的最先进技术,我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。
Oct, 2023
基于大规模语言模型的代码生成领域的综述,介绍了对 LLMs 在代码生成领域的最新进展、数据处理、性能评估、实际应用,对学术与实践之间的差距进行了分析,提出了关键挑战和机遇,并提供了一个资源网站以记录和传播该领域的最新进展。
Jun, 2024
最近,大型语言模型 (LLMs) 在理解自然语言和生成编程代码方面表现出了非凡的能力。然而,对于 LLMs 生成的代码的可靠性和鲁棒性的研究尚未得到深入的探讨。这项研究提出了一个包括 1208 个编程问题的数据集 RobustAPI,用于评估 LLMs 生成的代码的可靠性和鲁棒性,并发现甚至对于 GPT-4 而言,62% 的生成代码存在 API 误用,这可能导致意想不到的后果。
Aug, 2023
大型语言模型在机器翻译评估任务中取得了显著的成果,然而关于它们如何利用提供的数据进行评估仍存在知识空白。本研究旨在探索大型语言模型如何利用源语言和参考信息进行评估,从而更好地理解大型语言模型的工作机制。通过设计不同的输入模式和模型类型进行受控实验,并使用粗粒度和细粒度提示来识别源语言与参考信息的有效性,我们惊讶地发现参考信息显著提高了评估准确性,而源语言信息有时会适得其反,表明在使用大型语言模型评估翻译时缺乏跨语言能力。我们还对大型语言模型的翻译错误检测进行了元评估,观察到类似的现象。这些发现也为充分利用大型语言模型的跨语言能力以在机器翻译评估任务中取得更好性能提供了潜在的研究方向。
Jan, 2024
通过比较 OpenAI 的 ChatGPT 和 Google 的 Gemini AI 在其免费版本中生成的编程代码的质量,以一个真实世界的例子和系统的数据集为支撑,本研究批判性地检验了这两种领先的大型语言模型的输出质量。鉴于它们在生成代码方面的显著能力,这方面的聊天机器人能力成为一项特别引人注目的分析领域。此外,编程代码的复杂性常常升级到需要验证的难度,强调了我们研究的重要性。本研究旨在揭示大型语言模型在生成高质量编程代码方面的功效和可靠性,这对软件开发领域和其他领域具有重要意义。
May, 2024
该论文通过比较分析两种先进的大型语言模型(GPT-4.0 和 CodeLlama-70B)与传统优化编译器在代码优化方面的能力和局限性,以及引入了一套挑战性的优化模式基准和用于评估生成代码性能和正确性的自动机制,发现虽然大型语言模型有超越当前优化编译器的潜力,但在大型代码上常常生成不正确的代码,需要自动化验证方法,其中 CodeLlama-70B 在两种大型语言模型中表现最佳,最大加速能达到 2.1 倍,而 CETUS 在优化编译器中表现最佳,最大加速能达到 1.9 倍。同时,两种提示方法(思考链和指令提示)没有显著差异。
Jun, 2024
基于因果分析的方法用于系统地分析大语言模型(LLMs)输入提示与生成代码之间的因果关系,研究结果展示了该技术在提供 LLMs 有效性方面的潜力,并帮助最终用户理解预测,同时提供改进 LLMs 生成代码质量的可操作见解。
Oct, 2023