探索大型语言模型对初学者程序员求助请求的响应
探索大型语言模型在计算机教育和学习中的潜力,通过分析其对带有程序代码的输入生成的反馈进行研究,以此为目标来帮助学生解决编程任务并识别不同类型的反馈。结果表明,大型语言模型在一些入门编程任务和学生错误方面表现出了合理的性能,但教育者应提供指导,因为其提供的反馈可能对初学者包含误导性信息。
Aug, 2023
通过比较 OpenAI 的 ChatGPT 和 Google 的 Gemini AI 在其免费版本中生成的编程代码的质量,以一个真实世界的例子和系统的数据集为支撑,本研究批判性地检验了这两种领先的大型语言模型的输出质量。鉴于它们在生成代码方面的显著能力,这方面的聊天机器人能力成为一项特别引人注目的分析领域。此外,编程代码的复杂性常常升级到需要验证的难度,强调了我们研究的重要性。本研究旨在揭示大型语言模型在生成高质量编程代码方面的功效和可靠性,这对软件开发领域和其他领域具有重要意义。
May, 2024
该论文研究了大型语言模型(LLMs)ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现,并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务,使用完整任务描述作为 LLMs 的输入,通过 CodingBat 的单元测试评估生成的回复。此外,还分析了文本解释和程序代码的普遍可用性。结果显示得分高,正确响应率为 94.4%至 95.8%,同时文本解释和程序代码的可用性可靠,从而为将 LLMs 纳入编程教育和评估中打开了新的途径。
Aug, 2023
我们探讨了在初级编程课程中应用大型语言模型(LLM)生成代码追踪问题的方法,通过设计指导 GPT4 生成基于代码片段和描述的代码追踪问题的有针对性提示,并建立了一套人工评价指标,用于评估模型生成的问题与人工专家创建的问题的质量。我们的分析揭示了 LLMs 在生成多样化代码追踪问题方面的能力和潜力,并提供了一个独特的人工和 LLM 生成的追踪问题数据集,为教育和自然语言处理研究社区提供了宝贵资源。这项工作为关于 LLMs 在教育环境中潜在用途的持续对话做出了贡献。
Oct, 2023
大型语言模型(LLM)助手是帮助用户浏览复杂多功能软件的潜在替代方法。我们通过与 16 名参与者的实验和后续访谈对 LLM 生成的软件指导进行了研究。我们比较了基准 LLM 助手与一种针对特定软件背景优化过的 LLM 助手 SoftAIBot,后者还提供了构建适当提示的指南。但令人惊讶的是,虽然 SoftAIBot 优于基准 LLM,但我们的结果显示,无论是否使用提示指南和领域上下文的集成,LLM 的使用和用户感知没有显著差异。大多数用户难以理解提示文本与 LLM 的回应之间的关联,并且通常逐字逐句地遵循 LLM 的建议,即使是错误的。这导致在使用 LLM 的软件任务建议时出现困难,降低了任务完成率。我们的详细分析还表明,用户对 LLM 的回应中的错误毫不知情,这表明他们在软件专业知识的缺乏和评估 LLM 助手的能力之间存在差距。随着设计领域特定 LLM 助手的推动日益增加,我们强调将可解释的、上下文感知的提示融入 LLM 中的重要性,以帮助用户理解基于提示的交互,识别偏见,并最大化 LLM 助手的效用。
Feb, 2024
本研究评估了大型语言模型(LLMs)GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力,并应用自然语言处理的方法,通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标,从而展示了 LLMs 在洞察力提取方面的巨大潜力。
Sep, 2023
这篇论文讨论了使用大型语言模型(LLMs)对开放文本短答案问题进行评分的实验,研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现,并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。
May, 2024
使用自然语言作为一种新的编程语言来描述任务过程,让其易于被人类和 LMMs 理解,并进一步借助 Learning to Program (LP) 方法通过学习来自训练集中的自然语言程序,优化复杂任务的问题解决能力,该方法在 AMPS 和数学两个数据集上的有效性得到验证,证明其性能超过直接零样本测试表现 18.3%。
Apr, 2023
通过 Prompt Problems 的方法,我们提出了一种新的教授编程的方式,学生可以通过将问题转化为语言模型(LLMs)所能理解的提示来解决编程问题,并且我们展示了这个工具的设计、学生使用情况以及将 LLMs 整合到设计工具中所带来的新型编程问题和洞见。
Jan, 2024