利用大型语言模型为编程中的逻辑错误生成反馈阶梯
研究表明,使用对编程语法进行训练的 LLMs 可以有效地帮助开发人员,如生成编码问题示例或提供代码解释,此外,通过利用错误类型之间的关系,通过 LLMs 检测逻辑错误的方法比无关系描述的方法平均分类性能高约 21%,因此我们的研究可以帮助初学者程序员更有效地识别代码错误的原因并进行纠正,还可以为各种与编程相关的应用程序提供有用的基准数据集。
Apr, 2024
研究了大型语言模型在编程教育中的应用,通过提供自动化的下一步提示来支持学生,发现大多数由大型语言模型生成的反馈信息描述了一个具体的下一步,并针对学生的代码和方法进行个性化处理,但当学生接近任务结束时,提示可能包含误导性信息并缺乏足够的细节。该研究展示了大型语言模型生成反馈的潜力,但需要进一步研究来探索其实际应用。
Dec, 2023
探索大型语言模型在计算机教育和学习中的潜力,通过分析其对带有程序代码的输入生成的反馈进行研究,以此为目标来帮助学生解决编程任务并识别不同类型的反馈。结果表明,大型语言模型在一些入门编程任务和学生错误方面表现出了合理的性能,但教育者应提供指导,因为其提供的反馈可能对初学者包含误导性信息。
Aug, 2023
通过 Prompt Problems 的方法,我们提出了一种新的教授编程的方式,学生可以通过将问题转化为语言模型(LLMs)所能理解的提示来解决编程问题,并且我们展示了这个工具的设计、学生使用情况以及将 LLMs 整合到设计工具中所带来的新型编程问题和洞见。
Jan, 2024
探索大型语言模型(LLMs)在检测和提供对逻辑错误的新手友好解释方面的性能,结合学生和模型响应的混合方法分析,观察到 LLMs 在逻辑错误识别方面的显著改进,认为两代 LLMs 在性能上显著优于学生。我们提出了如何将这些模型整合到计算机教育工具中,并讨论它们在支持学生学习编程方面的潜力。
Nov, 2023
基于大语言模型的自动生成反馈在智能辅导系统和在线学习平台中具有潜力来提高许多学生的学习效果,本文针对自动生成和评估反馈的问题,提出了数学反馈评估标准和反馈生成框架,通过强化学习优化反馈的正确性和一致性,并通过案例研究定性分析了生成和评估系统。
Mar, 2024
为了解决大型语言模型在引文、正确性和流畅度方面存在的问题,本研究通过构建数据集、引入自动化反馈机制和反馈学习循环,成功提高了 ChatGPT 的引文和流畅度指标,并保持高水平的正确性。
Sep, 2023
Logic-LM 是一种将大型语言模型与符号推理相结合的框架,通过首先使用大型语言模型将自然语言问题转化为符号形式,然后进行确定性符号求解,以及自我精炼阶段来修正符号形式,在 ProofWriter、PrOntoQA、FOLIO 和 LogicalDeduction 等四个逻辑推理数据集上的结果表明,与仅使用大型语言模型相比,我们的方法可以显著提高逻辑推理的性能。
May, 2023
我们引入了语言反馈模型(LFMs),用于在指令跟随的模仿学习中识别理想行为 - 有助于实现指令中所述任务的行为。通过使用 LFMs 识别理想行为进行模仿学习,我们改善了在三个不同的语言基础环境(Touchdown、ScienceWorld 和 ALFWorld)上强大的行为克隆基线的任务完成率。同时,与使用 LLMs 直接预测动作相比,LFMs 在控制 LLMs 输出令牌数量的情况下取得了更好的效果。LFMs 具有泛化到未见环境的能力,通过一轮适应提高了 3.5-12.0% 的任务完成率。最后,LFM 可以进行修改以提供具有人类可解释性的反馈,而不会损失性能,从而允许人类验证模仿学习中的理想行为。
Feb, 2024