May, 2022

利用问答数据集来改进生成型数据增强

TL;DR本论文提出 CONDA 方法以生成虚拟数据,并通过将结构放在 QA 对上并使用 QA 数据集来训练上下文生成器来进一步提高生成语言模型的能力,通过将下游任务转化为相同的问答格式并调整上下文生成器适应目标任务域,使用精调的生成语言模型生成相关上下文,这些上下文作为相应任务的虚拟训练数据,在多个分类数据集上进行实验,显示出在几乎零样本和少样本设置中的性能显着改进,分析表明要求高级推理能力的 QA 数据集(例如,抽象和常识 QA 数据集)在几乎零样本和少样本设置中都能显着改进性能。