EMNLPNov, 2021

少样本文本分类中引导生成式语言模型进行数据增强

TL;DR本研究利用 GPT-2 生成人工数据增广样本,探究种子数据对生成样本和分类器性能的影响,结果表明在有限的标签实例下将 GPT-2 微调可以实现稳定的分类性能改进,而通过领域专家选择指导此过程可实现进一步提高的效果,这为结合生成模型和主动学习提供了有趣的研究方向。