ChatGPT 蒸馏技术与自动化学生答案评估解释性研究

May, 2023

ChatGPT 蒸馏技术与自动化学生答案评估解释性研究

Distilling ChatGPT for Explainable Automated Student Answer Assessment

Jiazheng Li, Lin Gui, Yuxiang Zhou, David West, Cesare Aloisi...

TL;DR本文探讨使用 ChatGPT 模型进行学生答案自动评分和理由生成的方法，并通过引入批评模块，过滤 ChatGPT 的不正确输出并细调较小的语言模型，在学生答案评分和理由生成方面实现了更好的性能，并且能够提供更详细和易理解的评估结果，从而提供了一个可行的解决方案，实现了可解释的自动评估教育。

Abstract

Assessing student answers and providing valuable feedback is crucial for effective learning, but it can be a time-consuming task. Traditional methods of automating student answer assessment through text classification often suffer from issues such as lack of trustworthiness, transparency, and the ability to provide a rationale for the →

automated assessment chatgpt student answer scoring rationale generation explainable assessment

发现论文，激发创造

ChatGPT 自动评分的微调

本研究通过在科学教育中使用示例评估任务，突显了精调 ChatGPT（GPT-3.5）自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比，GPT-3.5 在自动评分准确性上表现出显著提高，并发布了细调模型以供公众使用和社区参与。

Oct, 2023

评估 ChatGPT 作为一个问答系统：全面分析与现有模型的比较

ChatGPT 作为一个问答系统，通过对其在提供的段落中提取回答的能力进行评估，发现它在生成模型方面表现出了实力，但在问题回答方面相对于特定任务模型表现较差，而提供上下文可以提高其性能，提问方式对其准确性有所影响，并且在提供的上下文中提供了无法从中获取答案的问题的回答，还存在答案幻觉的现象。

Dec, 2023

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

基于 ChatGPT 作弊的测试题漏洞研究

ChatGPT 对测试问题的回答质量以及如何检测测试问题是否可由 ChatGPT 正确回答的方法是本研究的重要问题。我们通过对 MedMCQA 数据集中的问题生成 ChatGPT 的回答，并分析了不同类型问题中 ChatGPT 回答准确度较低的情况。此外，我们还开发了一个基本的自然语言处理模型，用于在一组问题或样本考试中识别出对 ChatGPT 最容易攻击的问题。这个工具可以帮助考试制作者避免出现易受 ChatGPT 攻击的测试问题。

Feb, 2024

探索 ChatGPT 在现有分类体系下分析学生团队反馈的效力

本研究探讨了使用生成式 AI 模型，特别是 ChatGPT，分析团队学习环境中学生评价的能力，并证实其在准确识别评价内容方面具备潜在的价值，为教育研究中 AI 模型的应用做出了有益的贡献。

May, 2023

评估 ChatGPT 在回答复杂问题时作为问答系统的有效性

评估使用自身知识作为问答系统的 ChatGPT 在回答复杂问题方面的能力，我们提出了一个框架来评估其功能和可靠性，并使用 CheckList 和 8 个现实世界的基于 KB 的问答数据集进行了测试。我们发现 LLM 模型的一些常见问题。

Mar, 2023

ChatGPT 还是人？检测与说明。解释机器学习模型检测短 ChatGPT 生成文本的决策

本文研究了机器学习模型在准确区分 ChatGPT 生成文本与人类生成文本时是否能够有效训练，使用可解释的人工智能框架来对模型进行了解释，研究发现采用 ChatGPT 重新短语生成能够使模型识别 ChatGPT 生成文本与人类生成文本之间的差异更具挑战性。

Jan, 2023

32 个大学课程中对话式人工智能的感知、表现和可检测性

该研究比较了 ChatGPT 和 32 门大学课程学生的表现，发现 ChatGPT 在许多课程中的表现相当，甚至优于许多学生。此外，其使用也难以被 AI 文本分类器可靠地检测出来，并且出现了学生使用该工具和教育者将其视为抄袭的共识，这些发现为 AI 融入教育框架的政策讨论提供了指导。

May, 2023

ChatGPT 对计算机科学本科生和教师究竟是祝福还是诅咒？

本文采用定量方法，展示 ChatGPT 在回答涉及本科计算机科学课程相关主题的不同类型的问题时高度不可靠，揭示学生盲目依赖 ChatGPT 完成作业和考试可能面临自我破坏。同时提出对学生和教师的建设性建议。

Apr, 2023

ChatGPT，还是不 ChatGPT：这是一个问题！

本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估，同时我们评估了其他 AI 生成的文本检测工具，以检测 ChatGPT 生成的内容。此外，我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明，现有方法都不能有效地检测 ChatGPT 生成的内容。

Apr, 2023