EMNLPApr, 2021
GPT3Mix:利用大规模语言模型进行文本增强
GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation
Kang Min Yoo, Dongju Park, Jaewook Kang, Sang-Woo Lee, Woomyeong Park
TL;DR本文提出一种新的数据增广技术,利用大规模的语言模型从混合的样本中生成逼真的文本样本,并利用语言模型预测的软标签,从大规模语言模型中蒸馏知识并同时创建文本扰动,我们在多元化的分类任务上进行数据增广实验,并展示了该方法远远优于现有的文本增广方法,消融研究和定性分析提供了更多的见解。