Jan, 2024

基于 LLM 的文本增强中多样性激励对样本多样性和下游模型性能的影响

TL;DR最新的生成型大规模语言模型(LLM)被应用于数据增强任务,在这些任务中使用少量文本样本进行 LLM 重述,然后用于模型的微调。本研究调查了三种在众包中广泛使用的文本多样性激励方法:禁忌词、先前异常解决方案的提示和先前异常解决方案的链接,并使用它们作为指导 LLM 对文本数据集进行增强的一部分的指令,测量它们对生成文本的词汇多样性和下游模型性能的影响。我们比较了在 5 种不同 LLM 和 6 个数据集上的影响效果。研究结果表明,禁忌词对多样性的增加最为显著,而使用先前创建的重述作为提示时下游模型性能最佳。