利用 GPT-4 增强不平衡数据进行自动评分

Oct, 2023

利用 GPT-4 增强不平衡数据进行自动评分

Using GPT-4 to Augment Unbalanced Data for Automatic Scoring

Luyang Fang, Gyeong-Geon Lee, Xiaoming Zhai

TL;DR通过利用 GPT-4 生成大型语言模型来进行文本数据增强，以解决在自动评分中存在的不均衡数据集的挑战。研究结果表明，GPT-4 增强评分模型在精确度、召回率和 F1 分数方面明显改善，并且对于稳定改善自动评分所需的增强数据比例存在差异。与其他学生编写的响应相比，GPT-4 增强评分模型显示出更好的性能，从而强调了利用生成型大型语言模型进行数据增强技术在自动评估中的潜力和有效性。

Abstract

machine learning-based automatic scoring can be challenging if students' responses are unbalanced across scoring categories, as it introduces uncertainty in the machine training process. To meet this challenge, we introduce a novel →

machine learning-based automatic scoring text data augmentation gpt-4 unbalanced datasets automated assessment

发现论文，激发创造

仅需提示和样本，使用 GPT-4 在低资源分类任务中进行数据增强

本文通过简单的提示使用 GPT-4 和 ChatGPT 增强有限的标注语料库，用于三种不同的分类任务，在低资源环境中通过生成的合成样本，测试了两种扩充策略：一种是维护原始标签分布，另一种则是平衡分布，实验发现，合成数据有助于实现很好的下游任务效果和极少见类别的识别。

Apr, 2023

ChatGPT 自动评分的微调

本研究通过在科学教育中使用示例评估任务，突显了精调 ChatGPT（GPT-3.5）自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比，GPT-3.5 在自动评分准确性上表现出显著提高，并发布了细调模型以供公众使用和社区参与。

Oct, 2023

GPT3Mix：利用大规模语言模型进行文本增强

本文提出一种新的数据增广技术，利用大规模的语言模型从混合的样本中生成逼真的文本样本，并利用语言模型预测的软标签，从大规模语言模型中蒸馏知识并同时创建文本扰动，我们在多元化的分类任务上进行数据增广实验，并展示了该方法远远优于现有的文本增广方法，消融研究和定性分析提供了更多的见解。

Apr, 2021

AugGPT：利用 ChatGPT 进行文本数据增强

本文提出了一种基于 ChatGPT 的文本数据增强方法（AugGPT），通过将训练样本中的每个句子重新表达为多个概念上相似但语义上不同的样本，提高了数据不变性和样本大小，并在少样本学习文本分类任务上取得了优越性能。

Feb, 2023

利用 GPT-3 扩充数据，提高短文本分类的性能

该研究针对 GPT-3 模型训练数据不足的问题，通过自动生成的样本增强小型训练集，在数据科学相关问题分类任务中比较了两种分类器的效果，证明了给予大型机器学习模型如 GPT-3 自己提出附加训练示例可以提高分类性能的结论。

May, 2022

安全分类任务中的数据集扩增文本生成

本研究评估了自然语言文本生成器在多个与安全相关的文本分类任务中填补不足的数据差距方面的应用，并考虑了训练集中不均衡类别的影响。通过使用三种针对冒犯性语言检测、评论欺诈检测和短信垃圾检测的最新分类器进行评估，我们发现使用 GPT-3 数据增强策略训练的模型优于未使用增强和使用常见数据增强策略训练的模型；特别是在已知阳性样本严重不足的情况下，GPT-3 数据增强策略带来了显著的好处。

Oct, 2023

GPT-4 大型预训练语言模型在自动化短答案评分中的表现

自动短答案评分（ASAG）是一个活跃的机器学习研究领域已有十多年的时间。它承诺即使在人工评分师有限的情况下，让教育者对大班课中的自由回答进行评分和反馈。近年来，经过精心训练的模型已经取得了越来越高的性能水平。最近，预训练的大型语言模型（LLMs）作为一种通用工具出现了，并且引发了一个有趣的问题，即没有额外训练的通用工具与专门模型相比如何。我们研究了 GPT-4 在标准基准 2 路和 3 路数据集 SciEntsBank 和 Beetle 上的性能，除了评分学生答案与参考答案的对齐标准任务外，还研究了不透露参考答案的情况。我们发现，总体而言，预训练的通用 GPT-4 LLM 的性能与手工设计的模型相当，但比经过专门训练的 LLMs 差。

Sep, 2023

使用现成大型语言模型进行意图分类的数据增强

本研究提出了一种基于提示的方法，使用诸如 GPT-3 等预训练语言模型来生成带标签的意图分类的训练数据，与需要对数据生成进行任务特定的 LM 微调的方法相比，该方法不需要超参数调整，即使在训练数据非常缺乏的情况下也适用，并且评估结果表明，当考虑到的意图彼此足够不同时，GPT 生成的数据可以显著提高意图分类器的性能；而在半导体上的那些任务中，生成的数据的效果较差，原因是 GPT 经常生成错误的语句，而不是所需的语句。

Apr, 2022

利用生成式语言模型进行神经机器翻译的数据增强

通过利用大规模语言模型如 ChatGPT，我们探索了基于提示的数据增强方法，用于产生合成的平行语料库，比较了三种不同提示的方法，并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本，与后向翻译等其他增强方法相比，提高了未增强基线的 0.68 BLEU 分数。

Jul, 2023

当自动评估遇上自动内容生成：审视 GPT 时代的文本质量

基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器（GPT）的文本评估模型之间的差异，发现转换器预训练语言模型（PLM）相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量，但相对于人工创作的文档，GPT 生成的文本评分平均要高出 10-15％。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。

Sep, 2023