多特征作文打分的自回归得分生成
本文提出一种鲁棒的模型来预测各种特征分数,该模型考虑了文章是否符合题意,在不同题目下进行得分,使用文学 - 题意注意力机制编码文章,使用主题建模机制提取主题一致性特征,并使用特征相似损失函数计算多特征评分结果。实验证明了该模型在所有提示和特征方面的最先进水平。
May, 2023
我们开发了两个模型,通过对两个大型数据集进行微调和其他策略,自动评分英文文章的多个维度,结果显示我们的系统在精确度、F1 得分和 Quadratic Weighted Kappa 三个标准下取得了卓越的性能,并且在整体评分中优于现有方法。
Jun, 2024
本论文介绍了一种可联合学习的针对 BERT 的多尺度文章表示法,并且采用了多种损失函数和跨领域文章的迁移学习,实验结果表明我们的方法在 ASAP 任务中取得了几乎所有深度学习模型中最先进的结果,并且该多尺度文章表示法在 CommonLit 可读性奖数据集上也具有良好的一般性,这表明本文提出的新型文本表示法可能是长文本任务的一种新而有效的选择。
May, 2022
提出了一种无监督技术的自动化开放式论文评分模型,可以同时评分论文并检测离题的论文。该模型使用了一种新颖的主题正则化模块(TRM),可连接在变换器模型之上,并使用了一种混合损失函数进行训练。训练后,该模型还用于计算离题论文检测的马氏距离分数。实验评估结果表明,该方法在离题检测和主题评分的两个论文评分数据集上优于基线和先前的传统方法,并且对于检测可能的人类级扰动具有鲁棒性。
Mar, 2024
我们的研究旨在揭示自动论文评分(AES)模型的准确性、公平性和泛化能力之间的复杂关系,为开发真实教育中的有效 AES 模型提供实用洞察。
Jan, 2024
借助 ChatGPT 将写作熟练度分解成不同特征,并生成每个特征的评分标准,然后利用大型语言模型在几轮对话中提取特征得分,并通过特征平均和最大最小缩放得出总体得分,实验证明 Multi Trait Specialization 在所有大型语言模型和数据集上始终优于直接提示 (Vanilla),同时在实际应用中,借助 MTS,小规模的 Llama2-13b-chat 显著优于 ChatGPT,实现有效的部署。
Apr, 2024
FABRIC 是一个自动化生成学生英语写作作文得分、具体基于规则的得分和改进建议的流水线系统,该系统在指导下选择了用于具体得分的规则,并通过实际数据集和改进策略显著提升模型准确性,最终经由教育专家和学生评价得分和建议的有效性。
Oct, 2023
本文探讨了使用不同的语言学特征在自动写作评分中预测性能的问题。研究结果表明,虽然使用这些特征可以得到良好的预测模型,但每个数据集的最优特征不同。
Dec, 2016
通过数据科学技术(包括机器学习、自然语言处理和教育数据分析),利用自然语言处理的 BERT 相关技术改进针对英语学习者(ELLs)的自动化反馈工具,以提高 ELLs 的写作能力评估。
Jan, 2024