日语语言测试中手写描述性答案的完全自动评分
该研究提出了一种基于识别的新颖方法,通过使用基于变压器的文档检索和集成方法在模型层面上改进了 HW-SQuAD 和 BenthamQA 数据集上的现有最先进技术,分别实现了 82.02%和 92.55%的精确匹配得分,在 HW-SQuAD 和 BenthamQA 数据集上超过了现有最佳的基于识别的方法 10.89%和 26%。我们还增强了文档检索组件,将前五次检索的准确性从 90%提高到 95.30%。我们的研究结果证明了我们提出的方法在推进手写文档问答方面的重要性。代码和训练模型将公开提供,以促进未来在这一关键领域的研究。
Jun, 2024
使用多角度混合神经网络(HNN)对学生科学教育中的分析性评分标准进行评估,结果显示 HNN 在比较四种机器学习方法(BERT,AACR,朴素贝叶斯和逻辑回归)后,对于五个评分方面的准确度分别比朴素贝叶斯,逻辑回归,AACR 和 BERT 高 8%,3%,1%和 0.12%(p <0.001) 。HNN 的整体准确度(M = 96.23%,SD = 1.45%)与(训练和推理)复杂的 BERT 模型的准确度(M = 96.12%,SD = 1.52%)相当。我们还观察到 HNN 在训练和推理方面比 BERT 高 2 倍的效率,并且在准确度较低的朴素贝叶斯模型上具有可比较的效率。本研究证实了使用 HNN 自动评分学生科学写作的准确性和效率。
Dec, 2023
自动评估句子翻译练习(STEs)的任务被提出,旨在为教育人员预设的每个评分标准对学生回答进行评分。使用一个包含 21 个问题和 3498 个学生回答的 STE 日语 - 英语数据集,作者展示了使用微调 BERT 和 GPT 模型的基线性能,结果表明微调 BERT 模型能以约 90% 的 F1 值对正确回答进行分类,但不到 80% 的不正确回答。此外,采用 few-shot 学习的 GPT 模型的结果较微调 BERT 差,表明我们提出的新任务对于最先进的大型语言模型来说是一个具有挑战性的问题。
Mar, 2024
本文提出了一种使用回译和分数调整来增加论文 - 评分对数目的方法,并将其应用于 Automated Student Assessment Prize 数据集进行扩充,通过使用先前工作中的模型对增强数据的有效性进行了评估,并使用长短期记忆进行了性能评估,该模型广泛用于自动文章评分。使用增强数据来训练模型可以提高模型的性能。
Mar, 2022
本研究探讨了基于监督学习的自动评分方法中,考虑到不同人评分偏好的各种模型。研究采用短答数学回答数据集进行了定量实验,并分析了各个评分人的个体偏好。结果表明,采用考虑评分者偏好的模型能够提高自动评分准确性。
Jun, 2023
本文介绍了一种支持 102 种语言的在线手写系统,采用深度神经网络架构和贝塞尔曲线的新输入编码,与之前的系统相比降低了 20%-40% 的错误率,并在 IAM-OnDB 数据集上取得了新的最优结果。通过实验确定了模型的最优配置,并在多个公共数据集上进行了评估。
Feb, 2019
该研究提出了一种使用机器学习方法来识别手写日文汉字的方法,通过卷积神经网络集成体系结构在 MNIST、K-MNIS、K49 和 K-Kanji 数据集上获得了 99.4%,96.4%,95.0%和 96.4%的分类精度。
Jun, 2023
本研究探讨基于卷积神经网络和前馈神经网络的自动化打分方法在国际数学和科学考试中将学生的绘画或图像回答分类的准确性。研究发现,相对于前馈神经网络,卷积神经网络能够更加精确地分类图像响应,并且可以取代人工评分,提高成绩评分的有效性和可比性。
Jan, 2022