GPT-4 和人类评分员对合成对话中赞扬给予学生的评估的比较分析

Jul, 2023

GPT-4 和人类评分员对合成对话中赞扬给予学生的评估的比较分析

Comparative Analysis of GPT-4 and Human Graders in Evaluating Praise Given to Students in Synthetic Dialogues

Dollaya Hirunyasiri, Danielle R. Thomas, Jionghao Lin, Kenneth R. Koedinger, Vincent Aleven

TL;DR研究发现，提供具体及时的反馈可以提高人类导师的表现，但由于评估导师表现的时间消耗性质，给出具体及时的反馈存在挑战，然而使用大语言模型 (如 AI-chatbot ChatGPT) 来为实际应用中的导师提供建设性反馈有潜力。这项工作在导师 - 学生模式下评估了由 GPT-4 生成的 30 次对话，并将两种不同的提示方法进行比较：零 - shot 思维链和少 - shot 思维链，以识别基于五个标准的有效赞扬的具体组成部分，并通过与人类评分员的结果进行比较来评估 GPT-4 是否能够准确识别每个赞扬标准。研究发现，零 - shot 和少 - shot 思维链方法产生了相似的结果。 GPT-4 在识别导师提供具体和即时赞扬的情况下表现良好，但在识别导师提供真诚赞扬的能力方面表现不佳，尤其是在没有提供真诚导师赞扬语句的零 - shot 提示场景中。未来的研究将着重于增强提示工程，开发更普遍的导师评分表，并使用实际的导师对话来进行评估。

Abstract

Research suggests that providing specific and timely feedback to human tutors enhances their performance. However, it presents challenges due to the time-consuming nature of assessing tutor performance by human e

feedback tutors ai gpt-4 praise

发现论文，激发创造

如何做到对？使用 GPT 重述错误学员回答

通过使用 GPT-4 模型，我们的研究建立一个解释性反馈系统，用于训练初级导师。研究结果表明，该模型有效地识别出三个训练课程中正确 / 错误的学员反馈，并将错误反馈转化为期望的反馈，其性能达到与人类专家相当的水平。

May, 2024

面向编程教育的生成式人工智能：ChatGPT、GPT-4 和人类导师的基准测试

本研究系统评估了两种模型 (基于 GPT-3.5 的 ChatGPT 和 GPT-4)，并将它们与人类导师在各种情形下的表现进行比较。我们使用五个 Python 编程问题和来自在线平台的真实有 bug 程序进行评估，并使用基于专家的注释进行评估。结果表明，GPT-4 明显优于 ChatGPT，并在某些场景下接近人类导师的表现，但在某些情况下仍表现不佳。

Jun, 2023

大学级编程课中人类、GPT-3.5 和 GPT-4 的性能比较

ChatGPT 的变种 GPT-3.5 和 GPT-4 在大学级别的物理编码作业中，通过性能评估及有无提示工程与仅有学生作品和学生与 GPT-4 贡献混合类别相比较，共收集了 300 个数据点。研究发现，尽管 AI 生成的作品接近于大学生的质量，但常常可以被人类评估者发现。

Mar, 2024

评估大型语言模型在生成准确教师回应方面的有效性

通过评估多个基准生成模型在教育对话中提供信息和帮助学生的能力，本研究旨在模拟一个有知识的老师的角色，并发现 GPT-4 在教师 - 学生聊天记录子集上的优越性，测量标准是 BERTScore 和 DialogRPT，同时注意到采样、代表性和对话完整性等数据集特征对微调模型的一般化能力造成了显著挑战，最终强调了对这些生成模型进行评估的需求，其中评估标准不仅依赖于对话连贯性和匹配的语言建模分布，而且还依赖于模型展示教学技巧的能力。

Jul, 2023

自动化人类导师式编程反馈：利用 GPT-4 导师模型生成提示以及 GPT-3.5 学生模型验证提示

使用生成式 AI 模型和大规模语言模型来生成编程教育中的个性化反馈，为学生提供编程提示以帮助他们解决程序中的错误。通过使用 GPT-4 作为 “导师” 模型和符号信息来提高生成质量，然后通过使用 GPT-3.5 作为 “学生” 模型来验证提示质量，我们开发了一种名为 GPT4Hints-GPT3.5Val 的新技术，通过对三个实际数据集进行广泛评估展示了我们技术的有效性。

Oct, 2023

如何提高？使用 GPT 凸显开放式回答中的期望和不期望的部分

本研究使用生成式预训练转换器（GPT）中的序列标注方法，利用 GPT 模型在辅导训练数据集中识别所需和不需要的赞扬组成部分以提供解释性反馈，研究表明 GPT 模型在识别特定元素方面具有潜力，能够提供对开放式回答中的期望和改进点的反馈。

May, 2024

仅需提示和样本，使用 GPT-4 在低资源分类任务中进行数据增强

本文通过简单的提示使用 GPT-4 和 ChatGPT 增强有限的标注语料库，用于三种不同的分类任务，在低资源环境中通过生成的合成样本，测试了两种扩充策略：一种是维护原始标签分布，另一种则是平衡分布，实验发现，合成数据有助于实现很好的下游任务效果和极少见类别的识别。

Apr, 2023

ChatGPT 是否是一位出色的教师辅导？通过测量零 - shot 性能，为课堂教学评分和提供可操作洞见

本研究探讨是否生成式人工智能可以作为自动化教练辅助专家反馈以成为对教师训练的一种有效补充。在这个过程中，针对小学数学课堂记录文本，我们提出了生成式人工智能的三种教师培训任务，并邀请数学领域专家评估了 ChatGPT 模型在每种任务上的表现。研究显示，生成式 AI 提供的反馈意见虽然往往不是新颖或有洞察力的，但它们仍然与改善教学相关。

Jun, 2023

ChatGPT 基于反馈的有效性研究：与教师反馈和自我反馈进行比较的证据 —— 以中文到英文翻译为例

通过对聊天机器人 ChatGPT、教师反馈和自我反馈这三种不同反馈方法的比较研究，发现教师反馈和自我反馈在整体翻译质量和语言特征方面均优于 ChatGPT 反馈，但 ChatGPT 反馈在提高词汇能力和修辞连贯性方面表现出优势。因此，ChatGPT 作为辅助资源可有效补充传统教师指导下的翻译实践。

Sep, 2023

评估大型语言模型在课堂对话分析中的应用

该研究探讨了大型语言模型（LLM），特别是 GPT-4，在课堂对话分析中的应用，这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点，调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析，包括数学和语文课堂的对话，该研究对人工编码的对话进行了评估，并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出，以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明，使用 GPT-4 能够显著节省时间，并且模型与人工编码者之间具有高度的一致性，尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。

Feb, 2024