我理解我得到这个分数的原因”: 带有反馈的自动短答案评分
本文提出了一种自动短答案评分学习框架,该框架针对K-12教育中的自由文本问题,旨在自动提取语言信息并在自由文本学生答案与参考答案之间准确建模语义关系,实验结果表明在各项评估指标上均高于最新算法模型。
Sep, 2019
本文研究了自动短答案评分问题,提出了一种新的基于 MathBERT 及上下文学习方法的框架,并在真实数据集上进行了评估,证明该框架对于之前未见过的数学问题的表现优于现有方法。
May, 2022
本文探讨使用 ChatGPT 模型进行学生答案自动评分和理由生成的方法,并通过引入批评模块,过滤 ChatGPT 的不正确输出并细调较小的语言模型,在学生答案评分和理由生成方面实现了更好的性能,并且能够提供更详细和易理解的评估结果,从而提供了一个可行的解决方案,实现了可解释的自动评估教育。
May, 2023
本文研究了一种自动短答案评分(ASAG)模型,提供了分析性得分和最终的整体得分。使用基于大型语言模型(LLM)的一次提示和文本相似性评分模型,通过小型手动注释数据集进行领域适应性,获得了较高的准确性和加权kappa值,从而在公开ASAG数据集的子集上取得了重大进展。
May, 2023
通过评估大型语言模型在自动评分方面的可行性,并强调大型语言模型如何支持教育工作者验证评分程序,研究表明,虽然“开箱即用”的大型语言模型提供了宝贵的工具来提供补充视角,但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作,需要人工监督。
Sep, 2023
我们介绍了一项新的研究领域,教育自然语言处理中的自动长答案评分(ALAG)。通过将其作为含评分标准的蕴涵问题来表述ALAG,我们展示了基于评分标准的方法在捕捉学生回答细微差别方面的优势。我们还在冷启动情景下研究了模型的性能,并将开源大型语言模型与GPT模型进行了比较,突显了ALAG相对于短答案评分的复杂性。
Apr, 2024
这篇论文讨论了使用大型语言模型(LLMs)对开放文本短答案问题进行评分的实验,研究了不同组合的GPT版本和提示工程策略在标记真实学生答案时的性能表现,并发现GPT-4在这方面表现良好与人类级别接近。这一研究对于支持K-12教育中的低风险形成性评估任务具有重要意义。
May, 2024
通过基于大规模的大学课程考试数据训练的神经网络模型,在历史考试数据上的实验证明了自动化简短回答评分系统的高准确性和一致性,这为减少人为主观性、改善评分一致性以提高公正性提供了有前途的解决方案。
May, 2024
我们提出了一个基于大型语言模型的评分系统,包括开发评分标准,提供准确一致的得分和定制化反馈,以及进行后评估,并在新的数据集上进行了广泛实验,验证了我们的方法的有效性。
May, 2024