Jun, 2024

合成过采样:理论和使用 LLMs 解决数据不平衡的实践方法

TL;DR不平衡数据和虚假关联是机器学习和数据科学中常见的挑战。本文介绍了 OPAL(使用人工生成的 LLM 数据进行过采样),一种系统的过采样方法,利用大型语言模型(LLMs)生成高质量的少数类别合成数据,与深度生成模型进行预测任务的合成数据生成方法有所不同,着重解决不平衡数据和虚假关联问题,并提出了新的理论来严格表征使用合成数据的益处,并展示了变压器在生成标签和协变量的高质量合成数据方面的能力。此外,我们进行了大量的数值实验,以证明我们提出的方法相较于一些代表性的替代方案更加有效。