基于 Transformer 模型的自动化论文评分数据增强

Oct, 2022

基于 Transformer 模型的自动化论文评分数据增强

Data Augmentation for Automated Essay Scoring using Transformer Models

Kshitij Gupta

TL;DR本文研究使用 Transformer 模型与数据增强技术解决自动评分的问题，通过实验证明其有效性。

Abstract

automated essay scoring is one of the most important problem in Natural Language Processing. It has been explored for a number of years, and it remains partially solved. In addition to its economic and educational usefulness, it presents research problems. →

automated essay scoring natural language processing transfer learning data augmentation transformer models

发现论文，激发创造

增强训练在自动化论文评分中的具体方法

本研究提出了一系列的数据增强操作，用于训练和测试自动评分模型以学习被先前研究忽视的特征和功能，同时在 Automated Student Assessment Prize 数据集中实现了最先进的性能。

Sep, 2023

使用反向翻译文章和调整分数来提高自动化论文评分的性能

本文提出了一种使用回译和分数调整来增加论文 - 评分对数目的方法，并将其应用于 Automated Student Assessment Prize 数据集进行扩充，通过使用先前工作中的模型对增强数据的有效性进行了评估，并使用长短期记忆进行了性能评估，该模型广泛用于自动文章评分。使用增强数据来训练模型可以提高模型的性能。

Mar, 2022

使用预训练 Transformer 模型进行数据增强

本文研究了不同类型的基于 Transformer 的预训练模型（如 GPT-2，BERT 和 BART），并探索了在数据增强方面，如何在文本序列之前添加类标签提供了一种简单而有效的条件方法，预先训练的 Seq2Seq 模型在低资源环境下胜过了其他数据增强方法，在数据分布和类标签信息保存方面也进行了探讨。

Mar, 2020

神经 NLP 数据增强

本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展，着重介绍了基于神经网络和变换器的方法，讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。

Feb, 2023

BERT 在自动化论文评分中的应用：多尺度论文表示的联合学习

本论文介绍了一种可联合学习的针对 BERT 的多尺度文章表示法，并且采用了多种损失函数和跨领域文章的迁移学习，实验结果表明我们的方法在 ASAP 任务中取得了几乎所有深度学习模型中最先进的结果，并且该多尺度文章表示法在 CommonLit 可读性奖数据集上也具有良好的一般性，这表明本文提出的新型文本表示法可能是长文本任务的一种新而有效的选择。

May, 2022

当自动评估遇上自动内容生成：审视 GPT 时代的文本质量

基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器（GPT）的文本评估模型之间的差异，发现转换器预训练语言模型（PLM）相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量，但相对于人工创作的文档，GPT 生成的文本评分平均要高出 10-15％。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。

Sep, 2023

语言模型与自动化文章评分

本文通过比较两种强大的语言模型 BERT 和 XLNet 以及传统模型（词袋和 LSTM），阐述了其神经网络架构，并使用线性代数符号和图表解释了 transformer 机制构架的优势，最终在 Kaggle AES dataset 中实现了超出人类水平的准确度。

Sep, 2019

辩论写作中的自动作文评分：DeBERTeachingAssistant

This research paper presents a transformer-based architecture capable of achieving above-human accuracy in annotating argumentative writing discourse elements for their persuasiveness quality, with planned future work investigating the explainability of the model to provide actionable feedback and enable a partnership between the teacher's advice and the machine's advice.

Jul, 2023

探索代码生成任务的数据增强技术

本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练，该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。

Feb, 2023

命名实体识别简单数据增强分析

本研究针对基于标记序列的命名实体识别任务，设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集（i2b2-2010 和 MaSciP）上进行实验，我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能，尤其是对于小训练集的情况。

Oct, 2020