使用微调和多元回归的自动作文多维评分

Jun, 2024

使用微调和多元回归的自动作文多维评分

Automatic Essay Multi-dimensional Scoring with Fine-tuning and Multiple Regression

Kun Sun, Rong Wang

TL;DR我们开发了两个模型，通过对两个大型数据集进行微调和其他策略，自动评分英文文章的多个维度，结果显示我们的系统在精确度、F1 得分和 Quadratic Weighted Kappa 三个标准下取得了卓越的性能，并且在整体评分中优于现有方法。

Abstract

automated essay scoring (AES) involves predicting a score that reflects the writing quality of an essay. Most existing AES systems produce only a single overall score. However, users and L2 learners expect scores across different dimensions (e.g., vocabulary, grammar, coherence) for

automated essay scoring english essays multiple dimensions fine-tuning performance evaluation

发现论文，激发创造

非母语学习者文章的自动评估：探究语言特征的作用

本文探讨了使用不同的语言学特征在自动写作评分中预测性能的问题。研究结果表明，虽然使用这些特征可以得到良好的预测模型，但每个数据集的最优特征不同。

Dec, 2016

揭示自动化作文评分的图景：准确性、公正性和普适性的综合研究

我们的研究旨在揭示自动论文评分（AES）模型的准确性、公平性和泛化能力之间的复杂关系，为开发真实教育中的有效 AES 模型提供实用洞察。

Jan, 2024

自动作文评分的深度学习架构

基于循环神经网络和卷积神经网络的自动评测系统在 8 个数据集上实验表明，本系统在自动评测方面具有显著的优势。

Jun, 2022

FABRIC：论文自动评分与反馈生成

FABRIC 是一个自动化生成学生英语写作作文得分、具体基于规则的得分和改进建议的流水线系统，该系统在指导下选择了用于具体得分的规则，并通过实际数据集和改进策略显著提升模型准确性，最终经由教育专家和学生评价得分和建议的有效性。

Oct, 2023

巴西场景下的自动作文评分

本文提出了一种新颖的面向巴西全国高等教育入学考试（ENEM）中葡语作文的自动评分（AES）算法，解决了传统人工评分系统中的挑战。该方法利用先进的深度学习技术，紧密对齐人工评分标准，以评估大量学生作文的效率和可扩展性为目标。该研究不仅解决了巴西教育评估中手动评分的物流和财务约束，还承诺在评分中提高公平性和一致性，是应用 AES 在大规模学术环境中迈出的重要一步。

Dec, 2023

BERT 在自动化论文评分中的应用：多尺度论文表示的联合学习

本论文介绍了一种可联合学习的针对 BERT 的多尺度文章表示法，并且采用了多种损失函数和跨领域文章的迁移学习，实验结果表明我们的方法在 ASAP 任务中取得了几乎所有深度学习模型中最先进的结果，并且该多尺度文章表示法在 CommonLit 可读性奖数据集上也具有良好的一般性，这表明本文提出的新型文本表示法可能是长文本任务的一种新而有效的选择。

May, 2022

多特征作文打分的自回归得分生成

通过自动回归多特征分数（ArTS）的预测来取代传统的编码器方法，使用预训练的 T5 模型来在多特征自动化作文评分中提供更高的效能。

Mar, 2024

使用反向翻译文章和调整分数来提高自动化论文评分的性能

本文提出了一种使用回译和分数调整来增加论文 - 评分对数目的方法，并将其应用于 Automated Student Assessment Prize 数据集进行扩充，通过使用先前工作中的模型对增强数据的有效性进行了评估，并使用长短期记忆进行了性能评估，该模型广泛用于自动文章评分。使用增强数据来训练模型可以提高模型的性能。

Mar, 2022

基于 Transformer 的联合建模：自动作文评分与离题检测

提出了一种无监督技术的自动化开放式论文评分模型，可以同时评分论文并检测离题的论文。该模型使用了一种新颖的主题正则化模块（TRM），可连接在变换器模型之上，并使用了一种混合损失函数进行训练。训练后，该模型还用于计算离题论文检测的马氏距离分数。实验评估结果表明，该方法在离题检测和主题评分的两个论文评分数据集上优于基线和先前的传统方法，并且对于检测可能的人类级扰动具有鲁棒性。

Mar, 2024

从自动化到增强：大语言模型提升作文评分领域

研究调查了大型语言模型（LLMs），特别是 GPT-4 和经过精细调整的 GPT-3.5 作为自动作文评分（AES）系统的工具的有效性。实验结果显示 LLM-based AES 系统具有卓越的准确性、一致性、泛化能力和可解释性，并超越传统评分模型，同时也提高人工评分员的表现。

Jan, 2024