ChatGPT 自动评分的微调
本文探讨使用 ChatGPT 模型进行学生答案自动评分和理由生成的方法,并通过引入批评模块,过滤 ChatGPT 的不正确输出并细调较小的语言模型,在学生答案评分和理由生成方面实现了更好的性能,并且能够提供更详细和易理解的评估结果,从而提供了一个可行的解决方案,实现了可解释的自动评估教育。
May, 2023
本实验研究使用 OpenAI 的 GPT-3.5 模型在一个自动化的评估平台上生成学生编程作业的个性化提示,实验小组依赖平台反馈较少但在启用 GPT 提示时表现得更好。
Jun, 2023
通过利用 GPT-4 生成大型语言模型来进行文本数据增强,以解决在自动评分中存在的不均衡数据集的挑战。研究结果表明,GPT-4 增强评分模型在精确度、召回率和 F1 分数方面明显改善,并且对于稳定改善自动评分所需的增强数据比例存在差异。与其他学生编写的响应相比,GPT-4 增强评分模型显示出更好的性能,从而强调了利用生成型大型语言模型进行数据增强技术在自动评估中的潜力和有效性。
Oct, 2023
通过评估多个基准生成模型在教育对话中提供信息和帮助学生的能力,本研究旨在模拟一个有知识的老师的角色,并发现 GPT-4 在教师 - 学生聊天记录子集上的优越性,测量标准是 BERTScore 和 DialogRPT,同时注意到采样、代表性和对话完整性等数据集特征对微调模型的一般化能力造成了显著挑战,最终强调了对这些生成模型进行评估的需求,其中评估标准不仅依赖于对话连贯性和匹配的语言建模分布,而且还依赖于模型展示教学技巧的能力。
Jul, 2023
在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现,同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现,并探讨了 GPT-3 模型优势和局限性。
May, 2020
通过比较生成型 AI 模型和经过细调的 LLMs,在文本分类任务中,利用应用特定训练数据进行细调的模型表现优异,从而验证了生成型 AI 模型在兑现其承诺方面存在问题。
Jun, 2024
基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器(GPT)的文本评估模型之间的差异,发现转换器预训练语言模型(PLM)相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量,但相对于人工创作的文档,GPT 生成的文本评分平均要高出 10-15%。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。
Sep, 2023
本研究评估了 ChatGPT 对最流行的 GLUE 基准的理解能力,并与 4 个代表性的 fine-tuned 的 BERT 模型进行比较。我们发现,ChatGPT 在处理释义和相似性任务方面存在不足,但在推理任务方面优于所有 BERT 模型,并在情感分析和问答任务上表现与 BERT 相当。此外,通过组合一些高级提示策略,我们展示了 ChatGPT 的理解能力可以进一步提高。
Feb, 2023
本文提出了一种新的评估框架 GPTScore,利用生成预训练模型的崭新能力对生成的文本进行评分,实验结果表明该方法能够高效地实现对文本的定制化、多方面评估,不需要注解样本。
Feb, 2023
ChatGPT 的变种 GPT-3.5 和 GPT-4 在大学级别的物理编码作业中,通过性能评估及有无提示工程与仅有学生作品和学生与 GPT-4 贡献混合类别相比较,共收集了 300 个数据点。研究发现,尽管 AI 生成的作品接近于大学生的质量,但常常可以被人类评估者发现。
Mar, 2024