一种基于 LLMs 的思维链提示方法用于评估学生科学形成性评价回答

Mar, 2024

一种基于 LLMs 的思维链提示方法用于评估学生科学形成性评价回答

A Chain-of-Thought Prompting Approach with LLMs for Evaluating Students' Formative Assessment Responses in Science

Clayton Cohn, Nicole Hutchins, Tuan Le, Gautam Biswas

TL;DR本研究探讨了使用大型语言模型（LLMs）对 K-12 科学问答进行评分和解释的方法。通过结合少样本学习、主动学习和推理链条，采用 GPT-4 自动评分中学地球科学问答，我们成功地对作业答案进行评分并提供了有意义的解释，进一步系统分析了该方法的优缺点，揭示了人与机联合评分技术提升开放式科学评估的潜力。

Abstract

This paper explores the use of large language models (LLMs) to score and explain short-answer assessments in K-12 science. While existing methods can score more structured math and computer science assessments, t

large language models short-answer assessments automated assessment explanations open-ended science assessments

发现论文，激发创造

大型语言模型是否能胜任？一项实证研究评估 LLM 评分 K-12 教育中的简答题能力

这篇论文讨论了使用大型语言模型（LLMs）对开放文本短答案问题进行评分的实验，研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现，并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。

May, 2024

应用大型语言模型和思维链路实现自动评分

该研究通过应用大型语言模型（LLMs），特别是 GPT-3.5 和 GPT-4，结合思维链（CoT），对学生科学评估中的写作回答进行自动评分的应用进行了调查，并专注于克服先前限制研究人员和教育工作者使用自动评估工具的可访问性、技术复杂性和解释性方面的挑战。研究结果表明，GPT-4 相对于 GPT-3.5 在各种评分任务中表现出更高的性能，并且使用 CoT 能够提高评分准确性，特别是当与项目描述和评分标准一起使用时。

Nov, 2023

探索大型语言模型在通过思维链路提示进行反思评估方法中的效力

通过 CoT 提示方法来评估四个语言模型对第三年医学生反思性文章的打分，结果显示 Llama-7b 表现最差，均方误差最高，而 ChatGPT 表现出色，科恩卡帕分数达到 0.53。此外，所选模型均优先考虑用户隐私，允许用户删除自己进行的会话。

Sep, 2023

使用 LLMs 自动评估学生代码理解

利用 Large Language Models (LLMs) 和 encoder-based Semantic Textual Similarity (STS) 模型对编程领域学生解答的自动评估进行了比较，发现 LLMs 在少样本和思维链模式下与 fine-tuned encoder-based 模型的性能相当。

Dec, 2023

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了 LLMs 在洞察力提取方面的巨大潜力。

Sep, 2023

链式思维引导的通用验证

通过探索不同的思维链和验证推理过程中的各个步骤，我们提出了三个模型应遵循的原则（相关性、数学准确性和逻辑一致性），并将这些原则应用于大型语言模型的推理步骤，以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成，我们在 4 种不同类型的推理任务上评估了我们的方法，涵盖了共计 9 个不同的数据集。实验证明，我们的方法始终优于基准生成，并且在 9 个数据集中的 6 个数据集中，优于最佳的 N 个采样方法。

Apr, 2024

LLMs 能评分短答阅读理解题：适用于低收入国家的基础识字能力评估

利用生成型大型语言模型（即 GPT-4）有望可靠地评估短答阅读理解问题，并通过使用新的数据集和自动评分过程提供了改进基础扫盲教育的可能性。

Oct, 2023

大型语言模型为何能生成准确的思路连贯？

本文研究了大型语言模型（LLMs）的能力，特别关注于推进链式思维提示的理论理解。我们探究了如何有效诱导 LLMs 生成连贯的思维链条。为实现此目标，我们引入了一个适用于自然语言生成的两级分层图模型。在这一框架下，我们建立了一个具有吸引力的几何收敛率，用于衡量 LLMs 生成的思维链条与真实语言起源的思维链条之间的相似度。我们的发现为 LLMs 能够产生正确的思维序列提供了理论上的证明（潜在地）解释了在需要推理技能的任务中性能提升的原因。

Oct, 2023

使用 LLMs 评估学生的开放式书面答案：基于 RAG 框架，针对 GPT-3.5，GPT-4，Claude-3 和 Mistral-Large 进行

教育工作者评估开放式书面考试答案是一项需要大量精力、一致性和准确性的重要任务。本研究探索了大型语言模型在评估大学生对参考资料提出的开放式问题的答案时的效果，发现 LLMs 的一致性和评分结果存在显著差异。进一步的比较研究对于确定使用 LLMs 进行教育评估的准确性和成本效益至关重要。

May, 2024

分析大型语言模型在课堂讨论评估中的应用

借助大型语言模型（LLMs）等新的自然语言处理技术，自动评估课堂讨论质量变得越来越可行。本文研究了两种 LLMs 的评估性能如何与任务制定、上下文长度和少样本示例等三个可能影响性能的因素相互作用。我们还探讨了两种 LLMs 的计算效率和预测一致性。结果表明，前述三个因素确实影响了被测试 LLMs 的性能，并且预测一致性与性能之间存在关系。我们建议采用以 LLMs 为基础的评估方法，在预测性能、计算效率和一致性方面取得良好平衡。

Jun, 2024