自动化作文评分反馈综述
我们开发了两个模型,通过对两个大型数据集进行微调和其他策略,自动评分英文文章的多个维度,结果显示我们的系统在精确度、F1 得分和 Quadratic Weighted Kappa 三个标准下取得了卓越的性能,并且在整体评分中优于现有方法。
Jun, 2024
本文探讨了使用不同的语言学特征在自动写作评分中预测性能的问题。研究结果表明,虽然使用这些特征可以得到良好的预测模型,但每个数据集的最优特征不同。
Dec, 2016
This research paper presents a transformer-based architecture capable of achieving above-human accuracy in annotating argumentative writing discourse elements for their persuasiveness quality, with planned future work investigating the explainability of the model to provide actionable feedback and enable a partnership between the teacher's advice and the machine's advice.
Jul, 2023
本文提出了一种使用回译和分数调整来增加论文 - 评分对数目的方法,并将其应用于 Automated Student Assessment Prize 数据集进行扩充,通过使用先前工作中的模型对增强数据的有效性进行了评估,并使用长短期记忆进行了性能评估,该模型广泛用于自动文章评分。使用增强数据来训练模型可以提高模型的性能。
Mar, 2022
FABRIC 是一个自动化生成学生英语写作作文得分、具体基于规则的得分和改进建议的流水线系统,该系统在指导下选择了用于具体得分的规则,并通过实际数据集和改进策略显著提升模型准确性,最终经由教育专家和学生评价得分和建议的有效性。
Oct, 2023
通过探索多种提词策略,本研究旨在研究基于大型语言模型(LLMs)的零样本和少样本生成文章反馈的能力,发现同时处理自动化文章评分(AES)和反馈生成可以改善 AES 性能,但评分对生成的反馈质量的影响最终仍较低。
Apr, 2024
我们的研究旨在揭示自动论文评分(AES)模型的准确性、公平性和泛化能力之间的复杂关系,为开发真实教育中的有效 AES 模型提供实用洞察。
Jan, 2024
这篇论文回顾和整理了一个被少有研究的领域 —— 自动化评估学生的议论写作。与传统的自动化写作评估侧重于整体的论文评分不同,这个领域更具体:它侧重于评估议论性文章,并提供特定的反馈,包括论证结构,论证实力特征分数等。这种聚焦和详细的评估对于帮助学生获得重要的论证技巧非常有用。在本文中,我们根据任务、数据和方法组织现有的工作。我们在代表性数据集上尝试 BERT,旨在为这个领域提供最新的基线。
May, 2022
自动化方法在科学解释写作的形成性反馈研究中有着越来越多的应用,本研究通过一个辅助评分标准,研究了在学生科学解释文章上的自动化反馈,发现学生在文章的修订版本中普遍进步,重点关注了影响自动化反馈准确性的两个因素。
Apr, 2024