Oct, 2020

GenAug:用于微调文本生成器的数据增强

TL;DR本研究探索了一种名为GenAug的文本生成数据增强方法,利用包括外部知识在内的各种增强方法在Yelp评论的子集上进行GPT-2微调,并研究了增强数量与生成文本质量之间的关系,实验表明插入字符级合成噪声和使用上位词进行关键词替换是有效的增强方法,生成质量在原始数据量的三倍左右达到峰值。