基于 Transformer 模型的自动化论文评分数据增强
本研究提出了一系列的数据增强操作,用于训练和测试自动评分模型以学习被先前研究忽视的特征和功能,同时在 Automated Student Assessment Prize 数据集中实现了最先进的性能。
Sep, 2023
本文提出了一种使用回译和分数调整来增加论文 - 评分对数目的方法,并将其应用于 Automated Student Assessment Prize 数据集进行扩充,通过使用先前工作中的模型对增强数据的有效性进行了评估,并使用长短期记忆进行了性能评估,该模型广泛用于自动文章评分。使用增强数据来训练模型可以提高模型的性能。
Mar, 2022
本文研究了不同类型的基于 Transformer 的预训练模型(如 GPT-2,BERT 和 BART),并探索了在数据增强方面,如何在文本序列之前添加类标签提供了一种简单而有效的条件方法,预先训练的 Seq2Seq 模型在低资源环境下胜过了其他数据增强方法,在数据分布和类标签信息保存方面也进行了探讨。
Mar, 2020
本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展,着重介绍了基于神经网络和变换器的方法,讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。
Feb, 2023
本论文介绍了一种可联合学习的针对 BERT 的多尺度文章表示法,并且采用了多种损失函数和跨领域文章的迁移学习,实验结果表明我们的方法在 ASAP 任务中取得了几乎所有深度学习模型中最先进的结果,并且该多尺度文章表示法在 CommonLit 可读性奖数据集上也具有良好的一般性,这表明本文提出的新型文本表示法可能是长文本任务的一种新而有效的选择。
May, 2022
基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器(GPT)的文本评估模型之间的差异,发现转换器预训练语言模型(PLM)相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量,但相对于人工创作的文档,GPT 生成的文本评分平均要高出 10-15%。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。
Sep, 2023
本文通过比较两种强大的语言模型 BERT 和 XLNet 以及传统模型(词袋和 LSTM),阐述了其神经网络架构,并使用线性代数符号和图表解释了 transformer 机制构架的优势,最终在 Kaggle AES dataset 中实现了超出人类水平的准确度。
Sep, 2019
This research paper presents a transformer-based architecture capable of achieving above-human accuracy in annotating argumentative writing discourse elements for their persuasiveness quality, with planned future work investigating the explainability of the model to provide actionable feedback and enable a partnership between the teacher's advice and the machine's advice.
Jul, 2023
本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练,该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。
Feb, 2023
本研究针对基于标记序列的命名实体识别任务,设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集(i2b2-2010 和 MaSciP)上进行实验,我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能,尤其是对于小训练集的情况。
Oct, 2020