语言模型与自动化文章评分

Sep, 2019

Language models and Automated Essay Scoring

Pedro Uria Rodriguez, Amir Jafari, Christopher M. Ormerod

TL;DR本文通过比较两种强大的语言模型 BERT 和 XLNet 以及传统模型（词袋和 LSTM），阐述了其神经网络架构，并使用线性代数符号和图表解释了 transformer 机制构架的优势，最终在 Kaggle AES dataset 中实现了超出人类水平的准确度。

Abstract

In this paper, we present a new comparative study on automatic essay scoring (AES). The current state-of-the-art natural language processing (NLP) neural network architectures are used in this work to achieve abo

automatic essay scoring natural language processing neural network architectures bert xlnet

发现论文，激发创造

H-AES：针对印地语的自动化作文评分

研究了使用自然语言处理 (NLP) 进行自动文章评分 (AES) 在英语中被广泛探索，而在印地语等低资源语言中尚未被探索的现状，并在印地语领域复现和比较了 AES 的最新方法。

Feb, 2023

BERT 在自动化论文评分中的应用：多尺度论文表示的联合学习

本论文介绍了一种可联合学习的针对 BERT 的多尺度文章表示法，并且采用了多种损失函数和跨领域文章的迁移学习，实验结果表明我们的方法在 ASAP 任务中取得了几乎所有深度学习模型中最先进的结果，并且该多尺度文章表示法在 CommonLit 可读性奖数据集上也具有良好的一般性，这表明本文提出的新型文本表示法可能是长文本任务的一种新而有效的选择。

May, 2022

XLNet 模型应用于论证要素标注建模

该研究证明了 XLNet 在标记劝说性文章中的争论元素方面的有效性。XLNet 的体系结构采用了一种循环机制，使其能够模拟长文本中的长期依赖关系。经过微调的 XLNet 模型应用于三个使用不同方案标注的数据集，分别是使用 ARROW 方案的专有数据集、PERSUADE 语料库和 Argument Annotated Essays (AAE) 数据集。XLNet 模型在所有数据集上均取得了强大的性能，甚至在某些情况下超过了人类一致性水平。这表明 XLNet 能够处理多样化的标注方案和长文本。对不同数据集上的模型输出进行比较还揭示了标注标签之间的关系。总体而言，XLNet 在模拟各种数据集上的论证结构方面表现出色，突出了它在提供论文组织自动化反馈方面的适用性。

Nov, 2023

基于 Transformer 模型的自动化论文评分数据增强

本文研究使用 Transformer 模型与数据增强技术解决自动评分的问题，通过实验证明其有效性。

Oct, 2022

大型语言模型能否自动评估书面文章的熟练程度？

利用大型语言模型（LLMs）对写作文章进行自动评分的实验表明，虽然适当选择题目对任务和模型性质很重要，但 ChatGPT 相比 Llama 在综合和个体写作特征上的性能稍优。尽管与 SOTA 模型相比预测存在差距，但它们提供了改善文章质量的反馈，为教师和学生提供帮助。

Mar, 2024

从自动化到增强：大语言模型提升作文评分领域

研究调查了大型语言模型（LLMs），特别是 GPT-4 和经过精细调整的 GPT-3.5 作为自动作文评分（AES）系统的工具的有效性。实验结果显示 LLM-based AES 系统具有卓越的准确性、一致性、泛化能力和可解释性，并超越传统评分模型，同时也提高人工评分员的表现。

Jan, 2024

自动作文评分的深度学习架构

基于循环神经网络和卷积神经网络的自动评测系统在 8 个数据集上实验表明，本系统在自动评测方面具有显著的优势。

Jun, 2022

基于 Transformer 的语言模型在抽取式问答中的比较研究

本文旨在研究和比较不同的预训练语言模型在回答问题的能力上的表现，通过使用 Bert-BiLSTM 结构模型的效果来检验双向流的加入是否能够提高模型性能，并发现 RoBERTa 和 BART 表现最佳。

Oct, 2021

通过对抗权重扰动和特定度量注意力池化增强论文评分

通过数据科学技术（包括机器学习、自然语言处理和教育数据分析），利用自然语言处理的 BERT 相关技术改进针对英语学习者（ELLs）的自动化反馈工具，以提高 ELLs 的写作能力评估。

Jan, 2024

揭示自动化作文评分的图景：准确性、公正性和普适性的综合研究

我们的研究旨在揭示自动论文评分（AES）模型的准确性、公平性和泛化能力之间的复杂关系，为开发真实教育中的有效 AES 模型提供实用洞察。

Jan, 2024