测试在不同级别的提示特异性下进行的代码生成的 LLMs
我们提出了一种称为变质提示测试的新颖解决方案,用于解决由大型语言模型生成的代码质量和正确性所引发的挑战,并在 HumanEval 评估中显示,该方法能够检测到由 GPT-4 生成的错误程序的 75%,误报率为 8.6%。
Jun, 2024
评估大型语言模型在代码生成方面的效果时,需要使用健全的基准测试,而不严谨的评估基准会提供虚假的性能表现。本研究分析了 9 个代码生成基准中的 3,566 个提示,以确定其中的质量问题,并研究了修复这些问题对模型性能的影响。发现评估基准主要侧重于 Python 和编码练习,且缺乏上下文依赖关系,同时还存在拼写和语法错误、表达不清晰以及不符合适当文档规范等质量问题。修复这些问题可以提高 Python 代码生成的性能,但对 Java 代码生成的改进不明显。此外,还发现 GPT-3.5-Turbo 和 CodeGen-2.5 模型可能存在数据污染问题。
Apr, 2024
我们研究了大型语言模型在非生成性任务中的应用,以代码克隆检测为例,通过使用基于提示的模式,ChatGPT 在跨语言代码克隆检测中表现出色,并且在单语言代码克隆检测方面与完全微调的模型的性能相当,同时,提示和问题的难度水平对 ChatGPT 的性能有影响。
Jan, 2024
我们探讨了在初级编程课程中应用大型语言模型(LLM)生成代码追踪问题的方法,通过设计指导 GPT4 生成基于代码片段和描述的代码追踪问题的有针对性提示,并建立了一套人工评价指标,用于评估模型生成的问题与人工专家创建的问题的质量。我们的分析揭示了 LLMs 在生成多样化代码追踪问题方面的能力和潜力,并提供了一个独特的人工和 LLM 生成的追踪问题数据集,为教育和自然语言处理研究社区提供了宝贵资源。这项工作为关于 LLMs 在教育环境中潜在用途的持续对话做出了贡献。
Oct, 2023
对测试生成的向搜索引擎软件测试方法(Search Based Software Testing,SBST)进行了改进,使用大型语言模型(LLMs)和 SymPrompt 自动生成更全面的测试案例,提高测试质量与覆盖率。
Jan, 2024
通过 Prompt Problems 的方法,我们提出了一种新的教授编程的方式,学生可以通过将问题转化为语言模型(LLMs)所能理解的提示来解决编程问题,并且我们展示了这个工具的设计、学生使用情况以及将 LLMs 整合到设计工具中所带来的新型编程问题和洞见。
Jan, 2024
本文探讨了在编程教育中使用大型语言模型(LLMs)的机会和威胁,研究表明 LLMs 有助于识别学生代码中的问题,但不可靠,需要在未来的研究中进一步挖掘。
Jun, 2023
研究 ChatGPT 3.5 模型在编写代码方面的能力,评估其在 10 种编程语言和 4 个软件领域中生成代码片段的熟练程度,并发现了模型的主要意外行为和限制,旨在寻找发展的潜在领域,并检查自动生成代码对编程语言和技术行业发展的影响。
Aug, 2023
大型语言模型(LLM)助手是帮助用户浏览复杂多功能软件的潜在替代方法。我们通过与 16 名参与者的实验和后续访谈对 LLM 生成的软件指导进行了研究。我们比较了基准 LLM 助手与一种针对特定软件背景优化过的 LLM 助手 SoftAIBot,后者还提供了构建适当提示的指南。但令人惊讶的是,虽然 SoftAIBot 优于基准 LLM,但我们的结果显示,无论是否使用提示指南和领域上下文的集成,LLM 的使用和用户感知没有显著差异。大多数用户难以理解提示文本与 LLM 的回应之间的关联,并且通常逐字逐句地遵循 LLM 的建议,即使是错误的。这导致在使用 LLM 的软件任务建议时出现困难,降低了任务完成率。我们的详细分析还表明,用户对 LLM 的回应中的错误毫不知情,这表明他们在软件专业知识的缺乏和评估 LLM 助手的能力之间存在差距。随着设计领域特定 LLM 助手的推动日益增加,我们强调将可解释的、上下文感知的提示融入 LLM 中的重要性,以帮助用户理解基于提示的交互,识别偏见,并最大化 LLM 助手的效用。
Feb, 2024