ChatGPT 自动评分的微调

Oct, 2023

Fine-tuning ChatGPT for Automatic Scoring

Ehsan Latif, Xiaoming Zhai

TL;DR本研究通过在科学教育中使用示例评估任务，突显了精调 ChatGPT（GPT-3.5）自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比，GPT-3.5 在自动评分准确性上表现出显著提高，并发布了细调模型以供公众使用和社区参与。

Abstract

This study highlights the potential of fine-tuned chatgpt (gpt-3.5) for

chatgpt gpt-3.5 automatically scoring student responses fine-tuned

发现论文，激发创造

ChatGPT 蒸馏技术与自动化学生答案评估解释性研究

本文探讨使用 ChatGPT 模型进行学生答案自动评分和理由生成的方法，并通过引入批评模块，过滤 ChatGPT 的不正确输出并细调较小的语言模型，在学生答案评分和理由生成方面实现了更好的性能，并且能够提供更详细和易理解的评估结果，从而提供了一个可行的解决方案，实现了可解释的自动评估教育。

May, 2023

用大型语言模型（GPT）自动化编程作业反馈

本实验研究使用 OpenAI 的 GPT-3.5 模型在一个自动化的评估平台上生成学生编程作业的个性化提示，实验小组依赖平台反馈较少但在启用 GPT 提示时表现得更好。

Jun, 2023

利用 GPT-4 增强不平衡数据进行自动评分

通过利用 GPT-4 生成大型语言模型来进行文本数据增强，以解决在自动评分中存在的不均衡数据集的挑战。研究结果表明，GPT-4 增强评分模型在精确度、召回率和 F1 分数方面明显改善，并且对于稳定改善自动评分所需的增强数据比例存在差异。与其他学生编写的响应相比，GPT-4 增强评分模型显示出更好的性能，从而强调了利用生成型大型语言模型进行数据增强技术在自动评估中的潜力和有效性。

Oct, 2023

评估大型语言模型在生成准确教师回应方面的有效性

通过评估多个基准生成模型在教育对话中提供信息和帮助学生的能力，本研究旨在模拟一个有知识的老师的角色，并发现 GPT-4 在教师 - 学生聊天记录子集上的优越性，测量标准是 BERTScore 和 DialogRPT，同时注意到采样、代表性和对话完整性等数据集特征对微调模型的一般化能力造成了显著挑战，最终强调了对这些生成模型进行评估的需求，其中评估标准不仅依赖于对话连贯性和匹配的语言建模分布，而且还依赖于模型展示教学技巧的能力。

Jul, 2023

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020

微调的「小型」LLM 在文本分类中仍显著优于零样本生成式 AI 模型

通过比较生成型 AI 模型和经过细调的 LLMs，在文本分类任务中，利用应用特定训练数据进行细调的模型表现优异，从而验证了生成型 AI 模型在兑现其承诺方面存在问题。

Jun, 2024

当自动评估遇上自动内容生成：审视 GPT 时代的文本质量

基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器（GPT）的文本评估模型之间的差异，发现转换器预训练语言模型（PLM）相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量，但相对于人工创作的文档，GPT 生成的文本评分平均要高出 10-15％。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。

Sep, 2023

ChatGPT 和 Fine-tuned BERT 的比较研究

本研究评估了 ChatGPT 对最流行的 GLUE 基准的理解能力，并与 4 个代表性的 fine-tuned 的 BERT 模型进行比较。我们发现，ChatGPT 在处理释义和相似性任务方面存在不足，但在推理任务方面优于所有 BERT 模型，并在情感分析和问答任务上表现与 BERT 相当。此外，通过组合一些高级提示策略，我们展示了 ChatGPT 的理解能力可以进一步提高。

Feb, 2023

GPTScore：任意评估

本文提出了一种新的评估框架 GPTScore，利用生成预训练模型的崭新能力对生成的文本进行评分，实验结果表明该方法能够高效地实现对文本的定制化、多方面评估，不需要注解样本。

Feb, 2023

大学级编程课中人类、GPT-3.5 和 GPT-4 的性能比较

ChatGPT 的变种 GPT-3.5 和 GPT-4 在大学级别的物理编码作业中，通过性能评估及有无提示工程与仅有学生作品和学生与 GPT-4 贡献混合类别相比较，共收集了 300 个数据点。研究发现，尽管 AI 生成的作品接近于大学生的质量，但常常可以被人类评估者发现。

Mar, 2024